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本 书 讲述 在 流行 的 大 数据 分 布 式 存储 和 计算 平台 Hadoop 上 设计 实现 
数据 仓库 ， 将 传统 数据 仓库 建 模 与 QL 开发 的 简单 性 与 大 数据 技术 相 结 
合 ， 快 速 、 高 效 地 建立 可 扩展 的 数据 仓库 及 其 应 用 系统 。 


本 书 内 容 包括 数据 仓库 、Hadoop 及 其 生态 圈 的 相关 概念 ， 使 用 
Sqoop 从 关系 数据 库 全 量 或 增 量 抽取 数据 ， 使 用 HIVE 进 行 数据 转换 和 装 
载 处 理 ， 使 用 Oozie 调 度 作 业 周 期 性 执行 ， 使 用 Impala 进 行 快 速 联机 数据 
分 析 ， 使 用 Hue 将 数据 可 视 化 ， 以 及 数据 仓库 中 的 渐变 维 (SCD) 、 代 
理 键 、 角 色 扮 演 维度 、 层 次 维度 、 退 化 维度 、 无 事实 的 事实 表 、 人 述 到 的 
事实 、 累 积 的 度量 等 常见 问题 在 Hadoop 上 的 处 理 等 。 


本 书 适 合 数据 库 管 理 员 、 大 数据 技术 人 员 、Hadoop 技 术 人 员 、 数 据 
仓库 技术 人 员 ， 也 适合 高 等 院 校 和 培训 机 构 相 关 专 业 的 师 生 教学 参考 。 
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似乎 所 有 人 路 边 都 挂 着 "大 数据 * 这 个 词 。 围 绕 大 数据 这 个 主题 开展 
的 讨论 几乎 已 经 完全 压倒 了 传统 数据 仓库 的 风头 。 某 些 大 数据 狂热 者 其 
至 大 胆 预 测 ， 在 不 久 的 将 来 ， 所 有 企业 数据 都 将 由 一 个 基于 Apache 
Hadoop 的 系统 托管 ， 企 业 数据 仓库 EDW) 终 将 消亡 。 无 论 如 何 ， 伟 
统 数据 仓库 架构 仍 在 不 断 发 展演 化 ， 这 一 点 不 容 置疑 。 一 年 来 ， 我 一 直 
在 撰写 相关 的 文章 和 博客 ， 但 它 真 的 会 消亡 吗 ? 我 认为 几率 很 小 。 实 际 
上 ， 尽 管 所 有 人 都 在 讨论 某 种 技术 或 者 架构 可 能 会 胜 过 另 一 种 技术 或 架 
构 ， 但 IBM 有 着 不 同 的 观点 。 在 IBM， 他 们 更 倾向 于 从 “Hadoop 与 数据 
仓库 密切 结合 * 这 个 角度 来 探讨 问题 ， 两 者 可 以 说 是 天 作 之 合 。 

试想 一 下 ， 对 于 采用 传统 数据 仓库 的 企业 而 言 ， 大 数据 带 来 的 机 会 
就 是 能 够 利用 过 去 无 法 通过 传统 仓库 架构 利用 的 数据 ， 但 传统 数据 仓库 
为 什么 不 能 承担 起 这 个 责任 ? 原因 是 多 方面 的 。 首 先 ， 数 据 仓库 的 传统 
架构 方式 采用 业务 系统 中 的 结构 化 数据 ， 用 它们 来 分 析 有 关 业 务 的 方 广 
面 面 ， 对 这 些 数据 进行 清理 、 建 模 、 分 布 、 治 理 和 维护 ， 以 便 执行 历史 
分 析 。 无 论 是 从 结构 方面 考虑 ， 还 是 从 数据 摄取 速率 方面 考虑 ， 我 们 在 
数据 仓库 中 存储 的 数据 都 是 可 预测 的 。 相 比 之 下 ， 大 数据 是 不 可 预测 
的 。 大 数据 的 结构 多 种 多 样 ， 对 于 EDW 来 说 数量 过 于 庞大 。 尤 其 要 考 
虑 的 是 ， 我 们 更 习惯 于 浏览 大 量 数据 来 查找 真正 需要 的 信息 。 不 久之 后 
可 能 又 会 决定 丢弃 这 些 数据 ， 在 某 些 情况 下 ， 这 些 数据 的 保存 期 限 可 能 
会 更 短 。 如 果 我 们 决定 保留 所 有 这 些 数据 ， 则 需要 使 用 比 EDW 更 经 济 
的 解决 方案 来 存储 非 结构 化 数据 ， 以 便 将 来 使 用 这 些 数据 进行 历史 分 
析 ， 这 也 是 将 Hadoop 与 数据 仓库 结合 使 用 的 另 一 个 论据 。 

本 书 通过 简单 而 完整 的 示例 ， 论 述 了 在 Hadoop 平 台 上 设计 和 实现 数 





























据 仓库 的 方法 。 将 传统 数据 仓库 建 模 与 SQL 开发 的 简单 性 与 大 数据 技术 
相 结 合 ， 快 速 、 高 效 地 建立 可 扩展 的 数据 仓库 及 其 应 用 系统 。 

本 书 共 13 章 ， 主 要 内 容 包括 数据 仓库 、Hadoop 及 其 生态 圈 的 相关 概 
念 ， 使 用 Sqoop 从 关系 数据 库 全 量 或 增 量 抽取 数据 ， 使 用 Hive 进 行 数据 
转换 和 装载 处 理 ， 使 用 Oozie 调 度 作 业 周 期 性 执行 ， 使 用 Impala 进 行 快速 
联机 数据 分 析 ， 使 用 Hue 将 数据 可 视 化 ， 以 及 数据 仓库 中 的 渐变 维 
(SCD) 、 代 理 键 、 角 色 扮 演 维度 、 层 次 维度 、 退 化 维度 、 无 事实 的 事 
实 表 、 述 到 的 事实 、 累 积 的 度量 等 常见 问题 在 Hadoop 上 的 处 理 等 。 


本 书 适 合 数据 库 管 理 员 、 大 数据 技术 人 员 、Hadoop 技 术 人 员 、 数 据 
仓库 技术 人 员 ， 也 适合 高 等 院 校 和 培训 学 校 相 关 专 业 的 师 生 教学 参考 。 
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起 数据 仓库 人 简介 


对 于 每 一 种 技术 ， 先 要 理解 相关 的 概念 和 它 之 所 以 出 现 的 原因 ， 这 
对 于 我 们 继续 深入 学 习 其 技术 细节 大 有 人 神 益 。 本 章 将 介绍 数据 仓库 的 定 
义 ， 它 和 传统 操作 型 数据 库 应 用 的 区 别 ， 以 及 为 什么 我 们 需要 数据 仓 
FE. 


在 对 数据 仓库 的 概念 有 了 一 个 基本 的 认识 后 ， 向 读者 介绍 四 种 常见 
的 数据 仓库 染 构 ， 然 后 说 明 ETL 这 个 重要 的 数据 仓库 概念 。 本 章 最 后 概 
要 介绍 对 于 一 个 数据 仓库 的 基本 需求 和 数据 需求 。 


1.1 什么 是 数据 仓库 





数据 仓库 的 概念 可 以 追溯 到 20 世 纪 80 年 代 ， 当 时 IBM 的 研究 人 员 开 
发 出 了 “商业 数据 仓库 ”。 本 质 上 ， 数 据 仓 库 试图 提供 一 种 从 操作 型 系统 
到 决策 支持 环境 的 数据 流 架 构 模 型 。 数 据 仓库 概念 的 提出 ， 是 为 了 解决 
和 这 个 数据 流 相 关 的 各 种 问题 ， 主 要 是 解决 多 重 数据 复制 带 来 的 高 成 本 
问题 。 在 没有 数据 仓库 的 时 代 ， 需 要 大 量 的 元 余数 据 来 文 撑 多 个 决策 文 
持 环 境 。 在 大 组 织 里 ， 多 个 决策 文 持 环 境 独 立 运 作 是 典型 的 情况 。 尽 管 
每 个 环境 服务 于 不 同 的 用 户 ， 但 这 些 环 境 经 常 需要 大 量 相 同 的 数据 。 处 
理 过 程 收 集 、 清 洗 、 整 合 来 目 多 个 数据 源 的 数据 ， 并 为 每 个 决策 文 持 环 
境 做 部 分 数据 复制 。 数 据 源 通常 是 早已 存在 的 操作 型 系统 ， 很 多 是 遗留 
系统 。 此 外 ， 妆 一 个 新 的 决策 文 持 环 境 形成 时 ， 操 作 型 系统 的 数据 经 常 
被 再 次 复 用 。 用 户 访问 这 些 处 理 后 的 数据 。 














1.1.1 数据 仓库 的 定义 


数据 仓库 之 父 Bill ”Inmon 在 1991 年 出 版 的 Building the ^ Data 
Warehouse “一 书 中 首次 提出 了 被 广 为 认 可 的 数据 仓库 定义 。Inmon 将 数 
据 仓库 描述 为 一 个 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 非 易 失 的 数据 
集合 ， 用 于 支持 管理 者 的 决策 过 程 。 这 个 定义 有 些 复杂 并 且 难 以 理解 。 
下 面 我 们 将 它 分 解 开 来 进行 说 明 。 
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传统 的 操作 型 系统 是 围绕 组 织 的 功能 性 应 用 进行 组 织 的 ， 而 数据 仓 
库 古 面 癌 主题 的 。 主 题 是 一 个 抽象 概念 ， 简 单 地 次 就 是 与 业务 相关 的 数 
据 的 类 别 ， 每 一 个 主题 基本 对 应 一 个 宏观 的 分 析 领 域 。 数 据 仓 库 被 设计 
成 辅助 人 们 分 析 数 据 。 例 如 ， 一 个 公司 要 分 析 销 售 数据 ， 就 可 以 建立 一 
个 专注 于 销售 的 数据 仓库 ， 使 用 这 个 数据 仓库 ， 就 可 以 回答 类 似 于 “去 
年 谁 是 我 们 这 球 产 品 的 最 佳 用 户 ” 这 样 的 问题 。 这 个 场景 下 的 销售 ， 就 
是 一 个 数据 主题 ， 而 这 种 通过 划分 主题 定义 数据 仓库 的 能 力 ， 就 使 得 数 
据 仓 库 是 面向 主题 的 。 主 题 域 是 对 条 个 主题 进行 分 析 后 确定 的 主题 的 边 
界 ， 如 和 客户、 销售、 产品 都 是 主题 域 的 例子 。 








。 集成 


集成 的 概念 与 面向 主题 是 密切 相关 的 。 还 用 销售 的 例子 ， 假 设 公司 
有 多 条 产品 线 和 多 种 产品 销售 渠道 ， 而 每 个 产品 线 部 有 自己 独立 的 销售 
数据 库 。 此 时 要 想 从 公司 层面 整体 分 析 销 售 数据 ， 必 须 将 多 个 分 散 的 数 
据 源 统一 成 一 致 的 、 无 到 义 的 数据 格式 后 ， 再 放置 到 数据 仓库 中 。 因 此 
数据 仓库 必须 能 够 解决 诸如 产品 命名 冲突 、 计 量 单位 不 一 致 等 问题 。 当 
完成 了 这 些 数据 整合 工作 后 ， 该 数据 仓库 束 可 称 为 是 集成 的 。 


。 随时 间 变 化 


为 了 发 现 业 务 变 化 的 趋势 、 存 在 的 问题 ， 或 者 新 的 机 会 ， 需 要 分 析 
大 量 的 历史 数据 。 这 与 联机 事务 处 理 COLTPO 系统 形成 鲜明 的 对 比 。 
联机 事务 处 理 反 应 的 是 当前 时 间 点 的 数据 情况 ， 要 求 高 性 能 、 高 并 用 和 
极 短 的 啊 应 时 间 ， 出 于 这 样 的 需求 考虑 ， 联 机 事务 处 理 系统 中 一 般 都 将 
数据 依照 活跃 程度 分 级 ， 把 历史 数据 迁移 到 归档 数据 库 中 。 而 数据 仓库 
关注 的 是 数据 随时 间 变 化 的 情况 ， 并 且 能 反映 在 过 去 茶 个 时 间 扣 的 数据 
征 怎样 的 。 换 句 话 说 ， 数 据 仓库 中 的 数据 是 反映 了 某 一 历史 时 间 点 的 数 
据 快 照 ， 这 也 就 是 术语 “随时 间 变 化 ”的 含义 。 当 然 ， 任 何 一 个 存储 结构 
都 不 可 能 无 限 扩 展 ， 数 据 也 不 可 能 只 入 不 出 地 永久 驻 留 在 数据 仓库 中 ， 
它 在 数据 仓库 中 也 有 上 自己 的 生命 周期 。 到 了 一 定时 候 ， 数 据 会 从 数据 仓 
库 中 移 除 。 移 除 的 方式 可 能 是 将 细 市 数据 汇总 后 删除 、 将 老 的 数据 转 储 
到 大 容量 介质 后 删除 和 直接 物理 删除 等 。 
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操作 型 环境 中 的 数据 一 般 都 会 频繁 更 新 ， 而 在 数据 仓库 环境 中 一 般 并 不 
进行 数据 更 新 。 当 改变 的 操作 型 数据 进入 数据 仓库 时 会 产生 新 的 记录 ， 
这 样 就 保留 了 数据 变化 的 历史 轨迹 。 也 就 是 说 ， 数 据 仓库 中 的 数据 基本 
是 静态 的 。 这 是 一 个 不 难 理解 的 逻辑 概念 。 数 据 仓库 的 目的 就 是 要 根据 
曾经 发 生 的 事件 进行 分 析 ， 如 果 数 据 是 可 修改 的 ， 将 使 历史 分 析 变 得 没 

意义 。 

除了 以 上 四 个 特性 外 ， 数 据 仓库 还 有 一 个 非常 重要 的 概念 就 是 粒 
度 。 粒 度 问题 遍布 于 数据 仓库 体系 结构 的 各 个 部 分 。 粒 度 是 指数 据 的 细 
节 或 汇总 程度 ， 细 节 程度 越 高 ， 粒 度 级 别 越 低 。 例 如 ， 单 个 事务 是 低 粒 
度 级 别 ， 而 全 部 一 个 月 事务 的 汇总 就 是 高 粒度 级 别 。 




















数据 粒度 一 直 是 数据 仓库 设计 需要 重点 思考 的 问题 。 在 早期 的 操作 
型 系统 中 ， 当 细节 数据 被 更 新 时 ， 几 乎 总 是 将 其 存放 在 最 低 粒 度 级 别 
上 ;而 在 数据 仓库 环境 中 ， 通 第 都 不 这 样 做 。 例 如 ， 如 果 数 据 被 装载 进 
数据 仓库 的 频率 是 每 天 一 次 ， 那 么 一 天 之 内 的 数据 更 新 将 被 忽略 。 

粒度 之 所 以 是 数据 仓库 环境 的 关键 设计 问题 ， 是 因为 它 极 大 地 影响 
数据 仓库 的 数据 量 和 可 以 进行 的 查询 类 型 。 粒 度 级 别 越 低 ， 数 据 量 越 
大 ， 但 询 的 细 市 程度 越 蜗 ， 但 询 范 围 越 广 泛 ， 肥 之 亦 然 。 

大 多 数 情况 下 ， 数 据 会 以 很 低 的 粒度 级 别 进入 数据 仓库 ， 如 日 志 类 
型 的 数据 或 单 击 流 数 据 ， 此 时 应 该 对 数据 进行 编辑 、 过 滤 和 汇总 ， 使 其 
适应 数据 仓库 环境 的 粒度 级 别 。 如 有 果 得 到 的 数据 粒度 级 别 比 数据 仓库 的 
高 ， 那 将 意味 独 在 数据 存 入 数据 仓库 前 ， 开 及 人 员 必 须 花 强大 量 设计 和 
资源 来 对 数据 进行 拆 分 。 


1.1.2 建立 数据 仓库 的 原因 


现在 你 应 该 已 经 熟悉 了 数据 仓库 的 概念 ， 那 么 数据 仓库 里 的 数据 从 
哪里 来 呢 ? 通常 数据 仓库 的 数据 来 自 各 个 业务 应 用 系统 。 业 务 系统 中 的 
数据 形式 多 种 多 样 ， 可 能 是 Oracle、MySQL、SQL Server 等 关系 数据 库 
里 的 结构 化 数据 ， 可 能 是 文本 、CSV 等 平面 文件 或 Word、Excel 文 档 中 
的 非 结 构 化 数据 ， 还 可 能 是 HTML、XML 等 自 描述 的 半 结 构 化 数据 。 这 
些 业 务 数据 经 过 一 系列 的 数据 抽取 、 和 转换、 清洗， 最终 以 一 种 统一 的 格 
式 装 载 进 数据 仓库 。 数 据 仓库 里 的 数据 作为 分 析 用 的 数据 源 ， 提 供给 后 
面 的 即席 得 询 、 分 析 系 统 、 数 据 集 市 、 报 表 系 统 、 数 据 挖 掘 系统 等 。 


从 以 上 描述 可 以 看 到 ， 从 存储 的 角度 看 ， 数 据 仓 库 里 的 数据 实际 上 
己 经 存在 于 业务 应 用 系统 中 ， 那 么 为 什么 不 能 直接 操作 业务 系统 中 的 数 
据 用 于 分 析 ， 而 要 使 用 数据 仓库 呢 ? 实际 上 在 数据 仓库 技术 出 现 前 ， 有 
很 多 数据 分 析 的 先驱 者 已 经 发 现 ， 简 单 的 “直接 访问 ?方式 很 难 恨 好 工 
作 ， 这 样 做 的 失败 案例 数不胜数 。 下 面 列 举 一 些 直接 访问 业务 系统 无 法 




















工作 的 原因 : 


o 未 些 业务 数据 由 于 安全 或 其 他 因素 不 能 直接 访问 。 

业务 系统 的 版 本 变更 很 频繁 ， 每 次 变更 都 需 要 重 写 分 析 系 统 并 重 
新 测试 。 

很 难 建立 和 维护 汇总 数据 来 源 于 多 个 业务 系统 版 本 的 报表 。 
业务 系统 的 列 名 通 种 是 硬 编 码 ， 有 时 仅仅 是 无 意义 的 字符 串 ， 这 
让 编写 分 析 系 统 更 加 困难 。 

业务 系统 的 数据 格式 ， 如 日 期 、 数 字 的 格式 不 统一 。 

业务 系统 的 表 纺 构 为 事务 处 理性 能 而 优化 ， 有 时 并 不 适合 碍 询 与 
分 析 。 

没有 适当 的 方式 将 有 价值 的 数据 合并 进 特定 应 用 的 数据 库 。 
没有 适当 的 位 置 存储 元 数据 。 

用 户 需 要 看 到 的 显示 数据 字段 ， 有 时 在 数据 库 中 并 不 存在 。 

通 第 事务 处 理 的 优先 级 比分 析 系 统 高 ， 所 以 如 果 分 析 系 统 和 事务 
处 理 运行 在 同一 硬件 之 上 ,分 析 系 统 往往 性 能 很 差 。 

有 误 用 业务 数据 的 风险 。 

极 有 可 能 影响 业务 系统 的 性 能 。 


尽管 需要 增加 软 硬 件 的 投入 ， 但 建立 独立 数据 仓库 与 直接 访问 业务 
数据 相 比 ， 无 论 是 成 本 还 是 带 来 的 好 处 ， 这 样 做 都 是 值得 的 。 随 着 处 理 
名 和 存储 成 本 的 逐年 降低 ， 数 据 仓库 方 采 的 优势 更 加 明显 ， 在 经 济 上 也 
更 有 具 可 行 性 。 

无 论 是 建立 数据 仓库 还 要 实施 别 的 项 目 ， 都 要 从 时 间 、 成 本 、 功 能 
等 儿 个 角度 权衡 比较 ， 认 真 研究 一 下 是 否 真 正 需 要 一 个 数据 仓库 ， 这 是 
一 个 很 好 的 问题 。 当 你 的 组 织 很 小 ， 人 人 数 很 少 ， 业 务 单 一 ， 数 据 量 也 不 
大 ， 可 能 你 真 的 不 需要 建 并 数据 仓库 。 毕 葛 要 想 成 功 建立 一 个 数据 仓库 
并 使 其 友 挥 应 有 的 作用 还 是 很 有 难度 的 ， 需 要 大 量 的 人 、 财 、 物 力 ， 并 
且 即 便 花 费 很 大 的 代价 完成 了 数据 仓库 的 建设 ， 在 较 短 一 段 时 间 内 也 不 


















































易 显现 出 价值 。 在 没有 专家 介入 而 仅 赁 组 织 自身 力量 建立 数据 仓库 时 ， 
还 要 冒 相当 大 的 失败 风险 。 但 是 ， 当 你 所 在 的 组 织 有 超过 1000 名 雇员 ， 
有 几 十 个 部 门 的 时 候 ， 它 所 面临 的 挑战 将 是 完全 不 同 的 。 在 这 个 充满 竞 
争 的 时 代 ， 做 出 正确 的 决策 对 一 个 组 织 至 关 重要 。 而 要 做 出 最 恰当 的 决 
策 ， 仅 依据 对 孤立 维度 的 分 析 是 不 可 能 实现 的 。 这 时 必须 要 考虑 所 有 相 
关 数 据 的 可 用 性 ， 而 这 个 数据 最 好 的 来 源 就 是 一 个 设计 良好 的 数据 仓 
库 。 

假设 一 个 超市 连锁 企业 ， 在 没有 实现 数据 仓库 的 情况 下 ， 最 终 该 企 
业 会 发 现 ， 要 分 析 商 品 销售 情况 是 非常 困难 的 ， 比 如 哪些 商品 被 售 出 ， 
哪些 没有 被 售 出 ， 什 么 时 间 销 量 上 升 ， 哪 个 年 龄 组 的 客户 倾向 于 购买 哪 
些 特定 商品 等 这 些 问题 都 无 从 回答 。 而 给 出 这 些 问题 的 正确 答案 正 是 一 
个 具有 吸引 力 的 挑战 。 这 只 是 第 一 步 ， 必 须要 搞 清楚 一 个 特定 商品 到 底 
适 不 适合 18~25 岁 的 人 群 ， 以 决定 该 商品 的 销售 策略 。 一 旦 从 数据 分 析 
得 出 的 结论 是 销售 该 商品 的 价值 在 降低 ， 那 么 必须 实施 后 面 的 步 又 分 析 
在 哪里 出 了 问题 ， 并 采取 相应 的 措施 加 以 改进 。 


在 辅助 战略 决策 层面 ， 数 据 仓库 的 重要 性 更 加 凸显 。 作 为 一 个 企业 
的 经 营 者 或 管理 者 ， 他 必须 对 茶 些 问题 给 出 答案 ， 以 获得 超越 竞争 对 手 
的 额外 优势 。 回 答 这 些 问题 对 于 基本 的 业务 运营 可 能 不 是 必需 的 ， 但 对 
于 企业 的 生存 发 展 却 必 不 可 少 。 下 面 是 一 些 常见 问题 的 例子 : 


























。 如 何 把 公司 的 市 场 份额 提升 5%? 

。 哪些 产品 的 市 场 表 现 不 令 人 满意 ? 

o 哪些 代理 商 需 要 销售 政 集 的 帮助 ? 

。 提 供给 客户 的 服务 质量 如 何 ? 哪些 需要 改进 ? 

回答 这 些 战 略 性 问题 的 关键 一 环 就 是 数据 仓库 。 就 拿 “ 提 供给 客户 
的 服务 质量 如 何 ? ”这 一 问题 来 说 ， 这 是 管理 者 最 为 关心 的 问题 之 一 。 
我 们 可 以 把 这 一 问题 分 解 成 许多 具体 的 小 问题 ， 比 如 第 一 个 问题 是 ， 在 


过 去 半年 中 ， 收 到 过 多 少 用 户 反 馈 ? 可 以 在 数据 仓库 上 发 出 对 应 的 但 
询 ， 并 对 碍 询 绪 吕 进行 分 机 。 之 所 以 能 够 这 样 做 ， 是 因为 数据 仓库 中 合 
有 每 一 条 用 户 反 馈 信 息 。 

你 可 能 已 经 想到 了 ， 第 二 个 问题 自然 就 是 ， 在 这 些 用 户 反 馈 当 中 ， 
给 出 “非常 满意 “一般 *“ 不 满意 ”的 人 数 分 别 有 多 少 ? 下 面 的 问题 就 是 客 
户 所 强调 的 需要 改进 的 地 方 和 广 受 批评 的 地 方 是 哪些 ? 这 在 数据 仓库 的 
用 户 反 馈 信 息 中 也 有 一 列 来 表示 ， 它 也 能 从 一 个 侧面 反映 出 客户 关心 的 
问题 是 哪些 。 以 上 这 三 个 问题 的 答案 联合 在 一 起 ， 就 可 以 得 出 客户 服务 
满意 度 的 结论 ， 并 且 准 确定 位 哪些 地 方 急 需 改 进 。 

下 面 简单 总 结 一 下 使 用 数据 仓库 的 好 处 : 

















。 将 多 个 数据 源 集成 到 单一 数据 存储 ， 因 此 可 以 使 用 单一 数据 查询 
引擎 展示 数据 。 
绥 解 在 事务 处 理 数据 库 上 因 执 行 大 查询 而 产生 的 资源 竞争 问题 。 











。 维护 历史 数据 。 

。 通过 对 多 个 源 系 统 的 数据 整合 ， 使 得 在 整个 企业 的 角度 存在 统一 
的 中 心 视 图 。 

。 通过 提供 一 致 的 编码 和 描述 ， 减 少 或 修正 坏 数据 问题 ， 提 高 数据 
质量 。 





一 致 性 地 表示 组 织 信息 。 

提供 所 有 数据 的 单一 通用 数据 模型 ， 而 不 用 关心 数据 源 。 

重 构 数 据 ， 使 数据 对 业务 用 户 更 有 意义。 

回复 杂 分 析 碍 询 交 付 优秀 的 得 询 性 能 ， 同 时 不 影 啊 操 作 型 系统 。 
开发 决策 型 查询 更 简单 。 


1.2 操作 型 系统 与 分 析 型 系统 
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述 它 们 的 概念 及 差 腊 。 

在 一 个 大 组 织 中 ， 往 往 都 有 两 种 类 型 的 系统 ， 操 作 型 和 分 析 型 ， 而 
这 两 种 系统 大 都 以 数据 库 作 为 数据 管理 、 组 织 和 操作 的 工具 。 操 作 型 系 
统 完 成 组 织 的 核心 业务 ， 例 如 下 订单 、 更 新 库存 、 记 录 文 付 信息 等 。 这 
些 系统 是 事务 型 的 ， 核 心目 标 是 尽 可 能 快 地 处 理事 务 ， 同 时 维护 数据 的 
一 致 性 和 完整 性 。 而 分 析 型 系统 的 主要 作用 是 通过 数据 分 析 评 佑 组 织 的 
业务 经 营 状 况 ， 并 进一步 辅助 决策 。 


1.2.1 操作 型 系统 


相信 从 事 过 IT 或 相关 工作 的 读者 对 操作 型 系统 都 不 会 感到 陌生 。 几 
乎 所 有 的 互联 网 线 上 系统 、MIS、OA 等 都 属于 这 类 系统 的 应 用 。 操 作 
型 系统 是 一 类 专门 用 于 管理 面 癌 事务 的 应 用 的 信息 系统 。“ 事 务 ” 一 词 在 
这 里 存在 一 些 卜 义 ， 有 些 人 理解 事务 是 一 个 计算 机 或 数据 库 的 术语 ， 力 
一 些 人 所 理解 的 事务 是 指 业务 或 商业 交易 ， 这 里 使 用 前 一 种 语义 。 那 么 
什么 是 数据 库 技术 中 的 事务 呢 ? 这 是 首先 需要 明确 的 概念 。 


事务 是 工作 于 数据 库 管 理 系统 《或 类 似 系统 ) 中 的 一 个 逻辑 单元 ， 
该 逻辑 单元 中 的 操作 被 以 一 种 独立 于 其 他 事务 的 可 靠 方式 所 处 理 。 事 务 
一 般 代表 着 数据 改变 ， 它 提供 “all-or-nothing” 操 作 ， 就 是 说 事务 中 的 一 
系列 操作 要 么 完全 执行 ， 要 么 完全 不 执行 。 在 数据 库 中 使 用 事务 主要 出 
TATEN: 

C1) METERA SEE. KAER A, HERI 
行 的 操作 或 者 已 经 完成 或 者 只 有 部 分 完成 ， 很 多 没有 完成 的 操作 此 时 处 
于 一 种 模糊 状态 。 在 这 种 情况 下 ， 数 据 库 系统 必须 能 够 恢复 到 数据 一 致 
的 正 第 状态 。 

(2) 提供 并 发 访问 数据 库 的 多 个 程序 间 的 隔离 。 如 果 没 有 这 种 隔 





























离 ， 程 序 得 到 的 结果 很 可 能 是 错误 的 。 
根据 事务 的 定义 ， 引 申 出 事务 具有 原子 性 、 一 致 性 、 陋 离 性 、 持 久 
性 的 特点 ， 也 就 是 数据 库 领 域 中 冲 说 的 事务 的 ACID 特性 。 





。 原子 性 


指 的 是 事务 中 的 一 系列 操作 或 全 执行 或 不 执行 ， 这 些 操 作 是 不 可 再 
分 的 。 原 子 性 可 以 防止 数据 被 部 分 修改 。 银 行 账号 间 转 账 是 一 个 事务 原 
子 性 的 例子 。 简 单 地 说 ， 从 A 账 号 向 B 账 号 转账 有 两 步 操作 : A 账号 提 
取 ，B 账 号 存 入 。 这 两 个 操作 以 原子 性 事务 执行 ， 使 数据 库 保持 一 致 的 
状态 ， 即 使 这 两 个 操作 的 任何 一 步 失 败 了 ， 总 的 金额 数 不 会 减少 也 不 会 
增加 。 





。 一 致 性 


数据 库 系 统 中 的 一 致 性 是 指 任何 数据 库 事务 只 能 以 多 许 的 方式 修改 
数据 。 任 何 数据 库 写 操作 必须 遵循 既 有 的 规则 ， 包 括 约 束 、 级 联 、 触 发 
需 以 及 它们 的 任意 组 合 。 一 致 性 并 不 保证 应 用 程序 馆 辑 的 正确 性 ， 但 它 
能 够 保证 不 会 因为 程序 错误 而 使 数据 库 产 生 违反 规则 的 结果 。 





在 数据 库 系 统 中 ， 隔 离 性 决定 了 其 他 用 户 所 能 看 到 的 事务 完整 性 程 
RE. 例如， 一 个 用 户 正 在 生成 一 个 采购 订单 ， 并 且 已 经 生成 了 订单 主 记 
录 ， 但 还 没有 生成 订单 条 目 明 细 记 录 。 此 时 订单 主 记录 能 个 极其 他 并 发 
AP eee? 这 就 是 由 隔离 级 别 决定 的 。 数 据 库 系统 中 ， 按 照 由 低 到 高 
一 般 有 读 非 提交 、 读 提交 、 可 重复 读 、 串 行 化 等 儿 种 隔离 级 。 数 据 库 系 
统 并 不 一 定 实现 所 有 的 隔离 级 别 ， 如 Oracle 数 据 库 只 实现 了 读 提交 和 串 
行 化 ， 而 MySQL 数 据 库 则 提供 这 全 部 四 种 隔离 级 别 。 








隔离 级 越 代 ， 多 用 户 同 时 访问 数据 的 能 力 越 高 ， 但 同时 也 会 增加 及 
读 、 丢 失 更 新 等 并 发 操作 的 负面 影响 。 相 反 ， 高 隅 离 级 降低 了 并 及 影 
啊 ， 但 需要 使 用 更 多 的 系统 资源 ， 也 增加 了 事务 伞 阻 塞 的 可 能 性 。 


。 持 久 性 


数据 库 系 统 的 持久 性 保证 已 经 提交 的 事务 是 永久 保存 的 。 例 如 ， 如 
果 一 个 机 票 预 订 报告 显示 一 个 座位 已 经 订 出 ， 那 么 即使 系统 衣 误 ， 被 订 
了 的 座位 也 会 一 直 保 持 被 订 出 的 状态 。 持 久 性 可 以 通过 在 事务 提交 时 将 
事务 日 志 刷 新 至 永久 性 存储 介质 来 实现 。 


了 解 了 事务 的 基本 概念 后 ， 我 们 再 来 看 操作 型 系统 就 比较 容易 理解 
了 。 操 作 型 系统 通常 是 高 并 发 、 高 否 吐 量 的 系统 ， 具 有 大 量 检 索 、 插 
入 、 更 新 操作 ， 事 务 数量 大 ， 但 每 个 事务 影响 的 数据 量 相对 较 小 。 这 样 
的 系统 很 适合 在 线 应 用 ， 这 些 应 用 有 成 干 上 万 用 户 在 同时 使 用 ， 并 要 求 
能 够 立即 响应 用 户 请 求 。 操 作 型 系统 常 被 整合 到 面向 服务 的 架构 
(SOA) 和 Web 服 务 里 。 对 操作 型 系统 应 用 的 主要 要 求 是 高 可 用 、 高 速 
度 、 高 并 发 、 可 恢复 和 保证 数据 一 致 性 ， 在 各 种 互联 网 应 用 层出不穷 的 
今天 ， 这 些 系统 要 求 是 显而易见 的 。 


1. 操作 型 系统 的 数据 库 操 作 

在 数据 库 使 用 上 ， 操 作 型 系统 常用 的 操作 是 增 、 改 、 碍 ， 并 且 通 御 
古 插入 与 更 新 密集 型 的 ， 同 时 会 对 数据 库 进 行 大 量 并 发 得 询 ， 而 删除 操 
作 相 对 较 少 。 操 作 型 系统 一 般 都 直接 在 数据 库 上 修改 数据 ， 没 有 中 间 过 
渡 区 。 

2. 操作 型 系统 的 数据 库 设计 


操作 型 系统 的 特征 是 大 量 短 的 事务 ， 并 强调 快速 处 理 但 询 。 每 秒 事 












































务 数 是 操作 型 系统 的 一 个 有 效 度 量 指标 。 针 对 以 上 这 些 特点 ， 数 据 库 设 
计 一 定 要 满足 系统 的 要 求 。 

在 数据 库 馆 辑 设 计 上 ， 操 作 型 系统 的 应 用 数据 库 大 都 使 用 规范 化 设 
计 方 法 ， 通 第 要 满足 第 三 范式 。 这 是 因为 规范 化 设计 能 最 大 限度 地 数据 
见 余 ， 因 而 提供 更 快 更 高 效 的 方式 执行 数据 库 写 操作 。 关 于 规范 化 设计 
概念 及 其 相关 内 容 ， 会 在 第 2 章 “ 数 据 仓库 设计 ”中 做 详细 说 明 。 

在 数据 库 物 理 设计 上 ， 应 该 依据 系统 所 使 用 的 数据 库 管理 系统 的 具 
体 特点 ， 做 出 相应 的 设计 ， 上 毕竟 每 种 数据 库 管 理 系统 在 实现 细节 上 还 是 
存在 很 大 差异 的 。 下 和 面 就 以 Oracle 数 据 库 为 例 ， 简 要 说 明 在 设计 操作 型 
系统 数据 库 时 应 该 考虑 的 问题 。 





调整 回 深 段 。 回 深 段 是 数据 库 的 一 部 分 ， 其 中 记录 着 最 终 被 回 深 
的 事务 的 行为 。 这 些 回 滚 段 信息 可 以 提供 读 一 致 性 、 回 滚 事务 和 
数据 库 恢 复 。 

合理 使 用 聚 徐 。 聚 徐 是 一 种 数据 库 模 式 ， 其 中 包含 有 共用 一 列 或 
多 列 的 多 个 表 。 数 据 库 中 的 聚 艇 表 用 于 提高 连接 操作 的 性 能 。 
适当 调整 数据 块 大 小 。 数 据 块 大 小 应 该 是 操作 系统 块 大 小 的 倍 
数 ， 并 且 设 置 上 限 以 避免 不 必要 的 IO。 

设置 缓冲 区 高 速 缓存 大 小 。 合 理 的 缓存 大 小 能 够 有 效 避 免 不 必要 
HE SELO. 

动态 分 配 表 空 间 。 

合理 划分 数据 库 分 区 。 分 区 最 大 的 作用 是 能 在 可 用 性 和 安全 性 维 
护 期 间 保持 事务 处 理 的 性 能 。 

SQL 优化 。 有 效 利 用 数据 库 管 理 系统 的 优化 器 ， 使 用 最 佳 的 数据 
访问 路 径 。 

避免 过 上 度 使 用 索引 。 大 量 的 数据 修改 会 给 索引 维护 带 来 压力 ， 从 
而 对 整个 系统 的 性 能 产生 负面 影响 。 








以 上 所 讲 的 操作 型 系统 都 是 以 数据 库 系统 为 核心 ， 而 数据 库 系统 为 
了 保持 ACID 特性 ， 本 质 上 是 单一 集中 式 系统 。 在 当今 这 个 信息 爆炸 的 
时 代 ， 集 中 式 数据 库 往 往 已 无 法 文 撑 业务 的 需要 《从 茶 订 票 网 站 和 某 电 
丙 网 站 的 超大 瞬时 并 发 量 来 看 ， 这 已 是 一 个 不 争 的 事实 ) 。 这 就 给 操作 
型 系统 带 来 新 的 挑战 。 分 布 式 事 务 、 去 中 心 化 、CAP 与 最 终 一 致 性 等 一 
系列 新 的 理论 和 技术 为 解决 系统 扩展 问题 应 运 而 生 。 这 是 一 个 很 大 的 话 
题 ， 要 想 说 清楚 需要 很 多 的 扩展 知识 和 大 量 篇 幅 ， 故 这 里 只 是 点 到 为 
止 ， 不 做 展开 。 


1.2.2 ”分析 型 系统 


在 计算 机 领域 ， 分 析 型 系统 是 一 种 快速 回答 多 维 分 析 碍 询 的 实现 方 
式 。 它 也 是 更 广泛 范畴 的 所 谓 商业 智能 的 一 部 分 “两 业 智 能 还 包含 数据 
库 、 报 表 系 统 、 数 据 挖 掘 、 数 据 可 视 化 等 研究 方向 ) 。 分 析 型 系统 的 典 
型 应 用 包括 销售 业务 分 析 报告 、 市 场 管理 报告 、 业 务 过 程 管理 
(BPM) 、 预 算 和 预测 、 金 融 分 析 报 告 及 其 类 似 的 应 用 。 


1. 分 析 型 系统 的 数据 库 操作 


在 数据 库 层 面 ， 分 析 型 系统 操作 被 定义 成 少量 的 事务 ， 复 杂 的 得 
询 ， 处 理 归档 和 历史 数据 。 这 些 数 据 很 少 被 修改 ， 从 数据 库 抽取 数据 是 
最 多 的 操作 ， 也 是 识别 这 种 系统 的 关键 特征 。 分 析 型 数据 库 基 本 上 都 是 
读 操 作 。 


2. 分析 型 系统 的 数据 库 设计 


分 析 型 系统 的 特征 是 相对 少量 的 事务 ， 但 查询 通常 非常 复杂 并 且 会 
包含 聚合 计算 ,例如 今年 和 去 年 同时 期 的 数据 对 比 、 百 分 比 变化 趋势 
等 。 分 析 型 数据 库 中 的 数据 一 般 来 自 于 一 个 企业 级 数据 仓库 ， 是 整合 过 
的 历史 数据 。 对 于 分 析 型 系统 ， 吞 吐 量 是 一 个 有 效 的 性 能 度量 指标 。 
































在 数据 库 人 逻辑 设计 上 ， 分 析 型 数据 库 使 用 多 维 数 据 模型 ,通常 是 设 





计 成 星 型 模式 或 雪花 模式 。 关 于 多 维 数据 模型 的 概念 及 其 相关 内 容 ， 会 
在 第 2 章 “ 数 据 仓库 设计 ”中 做 详细 说 明 。 

在 数据 库 物理 设计 上 ， 依 然 以 Oracle 数 据 库 为 例 ， 简 要 说 明 在 设计 
分 析 型 系统 数据 库 时 应 该 考虑 的 一 些 问题 。 





表 分 区 。 可 以 独立 定义 表 分 区 的 物理 存储 属性 ， 将 不 同 分 区 的 数 
据 存 放 到 多 个 物理 文件 上 ， 这 样 做 一 方面 可 以 分 散 VO; 25 —23 
面 ， 当 数据 量 非常 大 时 ， 方 便 数据 维护 ， 再 有 就 是 利用 分 区 消除 
查询 数据 时 ， 不 用 扫描 整 张 表 ， 从 而 提高 查询 性 能 。 

位 图 索引 。 当 得 询 条 件 中 包含 低 基 数 《〈 不 同 值 很 少 ， 例 如 性 别 ) 
的 列 ， 尤 其 是 包含 有 这 些 列 上 的 or、and 或 not 这 样 的 逻辑 运算 
时 ， 或 者 从 有 大 量 行 的 表 中 返回 大 量 的 行 时 ， 应 考虑 位 图 索引 。 
物化 视图 。 物 化 视图 物理 存储 查询 所 定义 的 数据 ， 能 够 目 动 增 量 
刷新 数据 ， 并 且 可 以 利用 碍 询 重 写 特 性 极 大 地 提高 查询 速度 ， 是 
分 析 型 系统 和 常用 的 技术 。 

并 行 化 操作 。 可 以 在 碍 询 大 量 数据 时 执行 并 行 化 操作 ， 这 样 会 导 
致 多 个 服务 器 进程 为 同一 个 查询 语句 工作 ， 使 用 该 查询 可 以 快速 
完成 ， 但 是 会 耗费 更 多 的 资源 。 


























随 痢 数据 的 大 量 积 累 和 大 数据 时 代 的 到 来 ， 人 们 对 于 数据 分 析 的 依 
赖 性 越 来 越 强 ， 而 分 析 型 系统 也 随 之 越 来 越 显 示 出 重要 性 。 举 一 个 简单 
的 例子 ， 在 一 家 医院 中 ， 保 存 有 20 年 的 非常 完整 的 病人 信息 。 医 院 领 导 
想 看 到 关于 最 常见 的 疾病 、 成 功 治愈 率 、 实 习 医 生 的 实习 天 数 等 很 多 相 
天 数据 的 详细 报告 。 为 了 满足 这 个 需求 ， 应 用 分 析 型 系统 查询 医院 信息 
数据 仓库 ， 并 通过 复杂 得 询 得 到 结果 ， 然 后 将 报告 提 区 给 领导 做 进一步 


分 析 。 


1.2.3 











操作 型 系统 和 分 析 型 系统 对 比 


操作 型 系统 和 分 析 型 系统 是 两 种 不 同 种 类 的 信息 系统 。 它 们 都 与 数 
据 库 技术 相关 ， 数 据 库 提 供 方法 文 持 这 两 种 系统 的 功能 。 操 作 型 系统 和 
分 析 型 系统 以 完全 不 同 的 方式 使 用 数据 库 ， 不 仅 如 此 ， 分 析 型 系统 更 加 
注重 数据 分 析 和 报表 ， 而 操作 型 系统 的 目标 是 一 个 伴 有 大 量 数据 改变 的 
事务 优化 系统 。 


对 于 学 习 数 据 科 学 及 其 相关 技术 的 读者 ， 了 解 这 两 种 信息 处 理 方式 
的 区 别 至 关 重 要 。 这 也 是 理解 商业 智能 、 数 据 挖 据 、 数 据 仓 库 、 数 据 模 
型 、ETIL 处 理 和 大 数据 等 系统 的 基础 。 

通过 前 面 对 两 种 系统 的 描述 ， 我 们 可 以 对 比 它 们 的 很 多 方面 。 表 1- 
1 总 结 了 两 种 系统 的 主要 区 别 。 后 面 我 们 进一步 讨论 每 一 个 容易 产生 疑 
惑 的 对 比 项 ， 以 帮助 你 理解 。 





表 1-1 操作 型 系统 和 分 析 型 系统 对 比 




















对 比 项 
数据 源 应 用 的 操作 信息 ， 一 般 是 最 原始 的 数 | 历史 的 、 归 档 的 数据 ， 一 般 来 源 于 数据 仓 
据 库 
侧重 点 数据 更 新 信息 的 检索 或 报表 
应 用 管理 系统 、 交 易 系统 、 在 线 应 用 等 报表 系统 、 多 维 分 析 、 决 策 文 持 系统 等 
用 户 终端 用 户 、 普 通 雇员 管理 人 员 、 市 场 人 员 、 数 据 分 析 师 
任务 业务 操作 数据 分 析 
数据 更 新 插入 、 更 新 、 删 除数 据 ， 要 求 快 速 执 | 大 量 数据 装载 ， 花 费时 间 很 长 
行 ， 立 即 返回 结果 
数据 模型 实体 关系 模型 多 维 数据 模型 
设计 方法 规范 化 设计 ， 大 量 的 表 和 表 之 间 的 关系 | 星 型 模式 或 雪花 模式 ， 少 量 的 表 
备份 定期 执行 全 量 或 增 量 备份 ， 不 允许 数 | 简单 备份 ， 数 据 可 以 重新 装载 
HER 
数据 的 时 间 范 转 
查询 简单 查询 ， 快 速 返回 查询 结果 复杂 查询 ， 执 行 聚合 或 汇总 操作 
速度 快 ， 大 表 上 需要 建 索引 相对 较 慢 ， 需 要 更 多 的 索引 
所 需 空间 小 ， 只 存储 操作 数据 大 ， 需 要 存储 大 量 历史 数据 


首先 两 种 系统 的 侧重 点 不 同 。 操 作 型 系统 更 适合 对 已 有 数据 的 更 


新 ， 所 以 古 日 第 处 理工 作 或 在 线 系统 的 选择 。 相 反 ， 分 析 型 系统 提供 在 
大 量 存 储 数 据 上 的 分 析 能 力 ， 所 以 这 类 系统 更 适合 报表 类 应 用 。 分 析 型 
系统 通常 是 查询 历史 数据 ， 这 有 助 于 得 到 更 准确 的 分 析 报 告 。 

其 次 因为 这 两 种 系统 的 目标 完全 不 同 ， 所 以 为 了 得 到 更 好 的 性 能 ， 
使 用 的 数据 模型 和 设计 方法 也 不 同 。 操 作 型 系统 数据 库 通 常 使 用 规范 化 
设计 ， 为 普通 得 询 和 数据 修改 提供 更 好 的 性 能 。 另 一 方面 ， 分 析 型 数据 
库 具 有 典型 的 数据 仓库 组 织 形 式 。 

基于 这 两 个 主要 的 不 同 点 ， 我 们 可 以 推导 出 两 种 系统 其 他 方面 的 区 
别 。 操 作 型 系统 上 的 查询 更 小 ， 而 分 析 型 系统 上 执行 的 查询 要 复杂 得 
多 。 所 以 操作 型 系统 会 比分 析 型 系统 快 很 多 。 


操作 型 系统 的 数据 会 持续 更 新 ， 并 且 更 新 会 立即 生效 。 而 分 析 型 系 
统 的 数据 更 新 ， 是 由 预定 义 的 处 理 作业 同时 装载 大 量 的 数据 集合 ， 并 且 
在 装载 前 需要 做 数据 转换 ， 因 此 整个 数据 更 新 过 程 需要 很 长 的 执行 时 
间 。 

由 于 操作 型 系统 要 做 到 绝对 的 数据 安全 和 可 用 性 ， 所 以 需要 实施 复 
杂 的 备份 系统 。 基 本 的 全 量 备份 和 增 量 备份 都 是 必须 要 做 的 。 而 分 析 型 
系统 只 需要 偶尔 执行 数据 备份 即 可 ， 这 一 方面 是 因为 这 类 系统 一 般 不 需 
要 保持 持续 运行 ， 男 一 方面 数据 还 可 以 从 操作 型 系统 重复 装载 。 


两 种 系统 的 空间 需求 显然 都 依赖 于 它们 所 存储 的 数据 量 。 分 析 型 系 
统 要 存储 大 量 的 历史 数据 ， 因 此 需要 更 多 的 存储 空间 。 


1.3 数据 仓库 架构 




















前 面 两 个 小 节 介绍 了 数据 仓库 、 操 作 型 系统 、 分 析 型 系统 等 概念 ， 
也 指出 了 分 析 型 系统 的 数据 源 一 般 来 自 数 据 仓 库 ， 而 数据 仓库 的 数据 来 
目 于 操作 型 系统 。 本 小 节 从 技术 角度 讨论 数据 仓库 的 组 成 和 架构 。 


1.3.1 基本 架构 


“架构 ?是 什么 ? 这 个 问题 从 来 就 没有 一 个 准确 的 答案 。 在 软件 行 
业 ， 一 种 被 普 过 接受 的 架构 定义 是 指 系统 的 一 个 或 多 个 结构 。 结 构 中 包 
括 软件 的 构建 (构建 是 指 软件 的 设计 与 实现 ) ， 构 建 的 外 部 可 以 看 到 属 
性 以 及 它们 之 间 的 相互 关系 。 这 里 参考 此 定义 ， 把 数据 仓库 架构 理解 成 
构成 数据 仓库 的 组 件 及 其 之 间 的 关系 ， 那 么 就 有 了 如 图 1-1 所 示 的 数据 
CRAY A. 

下 面 详细 说 明 图 1-1 中 的 各 个 组 件 及 其 所 起 的 作用 。 


操作 型 系统 数据 仓库 系统 





外 部 数据 =a 
, 出 户 界 面 














图 1-1 数据 仓库 架构 





图 中 显示 的 整个 数据 仓库 环境 包括 操作 型 系统 和 数据 仓库 系统 两 大 
部 分 。 操 作 型 系统 的 数据 由 各 种 形式 的 业务 数据 组 成 ， 这 其 中 可 能 有 关 
系数 据 库 、TXT 或 CSV 文 件 、HTML 或 XML 文档 ， 还 可 能 存在 外 部 系统 
的 数据 ， 比 如 网 络 朴 虫 抓 取 来 的 互联 网 数据 等 ， 数 据 可 能 是 结构 化 、 半 
结构 化 、 非 结构 化 的 。 这 些 数据 经 过 抽取 、 转 换 和 装载 CETL) 过 程 进 
入 数据 仓库 系统 。 

这 里 把 ETL 过 程 分 成 了 抽取 和 转换 装载 两 个 部 分 。 抽 取 过 程 负 责 从 











操作 型 系统 获取 数据 ， 该 过 程 一 般 不 做 数据 聚合 和 汇总 ， 但 是 会 按照 主 
题 进行 集成 ， 物 理 上 是 将 操作 型 系统 的 数据 全 量 或 增 量 复制 到 数据 仓库 
系统 的 RDS 中 。 转 换 装 载 过 程 并 将 数据 进行 清洗 、 过 滤 、 汇 总 、 统 一 格 
式 化 等 一 系列 转换 操作 ， 使 数据 转 为 适合 查询 的 格式 ， 然 后 装载 进 数 据 
仓库 系统 的 TDS 中 。 传 统 数据 仓库 的 基本 模式 是 用 一 些 过 程 将 操作 型 系 
统 的 数据 抽取 到 文件 ， 然 后 另 一 些 过 程 将 这 些 文 件 转化 成 MySQL 或 
Oracle 这 样 的 关系 数据 库 的 记录 。 最 后 ， 第 三 部 分 过 程 负责 把 数据 导入 
进 数 据 仓库 。 

RDS (RAW DATA STORES) 是 原始 数据 存储 的 意思 。 将 原始 数 
据 保 存 到 数据 仓库 里 是 个 不 错 的 想法 。ETL 过 程 的 bug 或 系统 中 的 其 他 
错误 是 不 可 避免 的 ， 保 留 原始 数据 使 得 追踪 并 修改 这 些 错误 成 为 可 能 。 
有 时 数据 仓库 的 用 户 会 有 查询 细节 数据 的 需求 ， 这 些 细节 数据 的 粒度 与 
操作 型 系统 的 相同 。 有 了 RDS， 这 种 需求 就 很 容易 实现 ， 用 户 可 以 查询 
RDS 里 的 数据 而 不 必 影响 业 务 系 统 的 正常 运行 。 这 里 的 RDS 实 际 上 是 起 
到 了 操作 型 数据 存储 CODS) 的 作用 ， 关 于 ODS 相关 内 容 本 小 节 后 面 会 
有 详细 论述 。 

TDS (TRANSFORMED DATA STORES) 意 为 转换 后 的 数据 存 
储 。 这 是 真正 的 数据 仓库 中 的 数据 。 大 量 的 用 户 会 在 经 过 转换 的 数据 集 
上 处 理 他 们 的 日 常 查询 。 如 果 前 面 的 工作 做 得 好 ， 这 些 数据 将 被 以 保证 
最 重要 的 和 最 频繁 的 查询 能 够 快速 执行 的 方式 构建 。 


这 里 的 原始 数据 存储 和 转换 后 的 数据 存储 是 馆 辑 概念 ， 它 们 可 能 
理 存 储 在 一 起 ， 也 可 能 分 开 。 当 原始 数据 存储 和 转换 后 的 数据 存储 物理 
上 分 开 时 ， 它 们 不 必 使 用 同样 的 软 人 硬件 。 传 统 数据 仓库 中 ， 原 始 数 据 存 
储 通 常 是 本 地 文件 系统 ， 原 始 数 据 被 组 织 进 相应 的 目录 中 ， 这 些 目 录 是 
基于 数据 从 哪里 抽取 或 何 时 抽取 建立 (例如 以 日 期 作为 文件 或 目录 名 称 
的 一 部 分 ) ;转换 后 的 数据 存储 一 般 是 茶 种 关系 数据 库 。 


自动 化 调度 组 件 的 作用 是 自动 定期 重复 执行 ETL 过 程 。 不 同 角色 的 









































数据 仓库 用 户 对 数据 的 更 新 频率 要 求 也 会 有 所 不 同 ， 财 务 主管 需要 每 月 
的 营 收 汇总 报告 ， 而 销售 人 员 想 看 到 每 天 的 产品 销售 数据 。 作 为 通用 的 
需求 ， 所 有 数据 仓库 系统 都 应 该 能 够 建立 周期 性 自动 执行 的 工作 流 作 
业 。 传 统 数 据 仓 库 一 般 利 用 操作 系统 自 带 的 调度 功能 〈 如 Linux 的 cron 或 
Windows 的 计划 任务 ) 实现 作业 上 自动 执行 。 

数据 目录 有 时 也 被 称 为 元 数据 存储 ， 它 可 以 提供 一 份 数据 仓库 中 数 
据 的 清单 。 用 户 通过 它 应 该 可 以 快速 解决 这 些 问 题 : 什么 类 型 的 数据 被 
存储 在 哪里 ， 数 据 集 的 构建 有 何 区 别 ， 数 据 最 后 的 访问 或 更 新 时 间 等 。 
此 外 还 可 以 通过 数据 目录 感知 数据 是 如 何 被 操作 和 转换 的 。 一 个 好 的 数 
据 目 录 是 让 用 户 体验 到 系统 易 用 性 的 关键 。 

查询 引擎 组 件 负责 实际 执行 用 户 碍 询 。 传 统 数据 仓库 中 ， 它 可 能 是 
存储 转换 后 数据 的 “Oracle、MySQL 等 关系 数据 库 系 统 内 置 的 ) 查询 引 
擎 ， 还 可 能 是 以 固定 时 间 间 隅 同 其 导入 数据 的 OLAP 立 方 体 ， 如 Essbase 


cube. 


用 户 界 面 指 的 是 最 终 用 户 所 使 用 的 接口 程序 。 可 能 是 一 个 GUI 软 
件 ， 如 BI 套件 的 中 的 客户 端 软件 ， 也 可 能 就 是 一 个 浏览 器 。 


1.3.2 主要 数据 仓库 架构 


在 数据 仓库 技术 演化 过 程 中 ， 产 生 了 几 种 主要 的 染 构 方法 ， 包 括 数 
扼 集 市 架构、Inmon 企 业 信息 工厂 架构 、Kimball 数 据 仓库 架构 和 混合 型 
数据 仓库 架构 。 


1. 数据 集 市 染 构 


数据 集 市 是 按 主 题 域 组 织 的 数据 集合 ， 用 于 文 持 部 门 级 的 决策 。 有 
两 种 类 型 的 数据 集 市 : 独立 数据 集 市 和 从 属 数据 集 市 。 


独立 数据 集 市 集中 于 部 门 所 关心 的 单一 主题 域 ， 数 据 以 部 门 为 基础 























部 获 ， 无 须 考虑 企业 级 别 的 信息 共有 至 与 集成 。 例 如 ， 制 造 部 门 、 人 力 资 
源 部 门 和 其 他 部 门 都 各 自 有 他 们 自己 的 数据 集 市 。 独 立 数据 集 市 从 一 个 
主题 域 或 一 个 部 门 的 多 个 事务 系统 获取 数据 ， 用 以 支持 特定 部 门 的 业务 
分 析 需 要 。 一 个 独立 数据 集 市 的 设计 既 可 以 使 用 实体 关系 模型 ， 也 可 以 
使 用 多 维 模型 。 数 据 分 析 或 商业 智能 工具 直接 从 数据 集 市 查询 数据 ， 并 
将 碍 询 结果 显示 给 用 户 。 一 个 典型 的 独立 数据 集 市 架构 如 网 1-2 所 示 。 


因为 一 个 部 门 的 业务 相对 于 整个 企业 要 简单 ， 数 据 量 也 小 得 多 ， 所 
以 部 门 的 独立 数据 集 市 具有 周期 短 、 见 效 快 的 特点 。 如 果 从 企业 整体 的 
视角 来 观察 这 些 数据 集 市 ， 你 会 看 到 每 个 部 门 使 用 不 同 的 技术 ， 建 立 不 
同 的 ETIL 的 过 程 ， 处 理 不 同 的 事务 系统 ， 而 在 多 个 独立 的 数据 集 市 之 间 
还 会 存在 数据 的 交叉 与 重 登 ， 甚 至 会 有 数据 不 一 致 的 情况 。 从 业务 角度 












































看 ， 当 部 门 的 分 析 需 求 扩展 ， 或 者 需要 分 析 鹭 部门 或 跨 主 题 域 的 数据 
时 ， 独 立 数据 市 场 会 显得 力不从心 。 而 当 数 据 存 在 歧义 ， 比 如 同一 个 产 
品 ， 在 A 部 门 和 B 部 门 的 定义 不 同时 ， 将 无 法 在 部 门 间 进行 信息 比较 。 
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| 图 1-2 Jv Ed fe RM 
另外 一 种 数据 集 市 是 从 属 数据 集 市 。 如 Bil Inmon 所 说 ， 从 属 数据 


集 市 的 数据 来 源 于 数据 仓库 。 数 据 仓 库 里 的 数据 经 过 整合 、 重 构 、 汇 总 
后 传递 给 从 属 数据 集 市 。 从 属 数据 集 市 的 架构 如 图 1-3 所 示 。 
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建立 从 属 数据 集 市 的 好 处 主要 有 : 


e 性 能 : 当 数 据 仓库 的 得 询 性 能 出 现 问 题 ， 可 以 考虑 建立 几 个 从 属 
数据 集 市 ， 将 查询 从 数据 仓库 移出 到 数据 集 市 。 

e 安全 : 每 个 部 门 可 以 完全 控制 他 们 自己 的 数据 。 

e 数据 一 致 : 因为 每 个 数据 集 市 的 数据 来 源 都 是 同一 个 数据 仓库 ， 
有 效 消 除了 数据 不 一 致 的 情况 。 

Inmon 企 业 信息 工厂 架构 


Inmon 企 业 信 息 工 厂 染 构 如 图 1-4 所 示 ， 我 们 来 看 图 中 的 组 件 是 如 何 
协同 工作 的 。 
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图 1-4 Inmon 企 业 信 息 工 三 架构 


e 应 用 系统 这些 应 用 是 组 织 中 的 操作 型 系统 ， 用 来 支撑 业务 。 它 
们 收集 业务 处 理 过 程 中 产生 的 销售 、 市 场 、 材 料 、 物 流 等 数据 ， 

并 将 数据 以 多 种 形式 进行 存储 。 操 作 型 系统 也 叫 源 系统 ， 为 数据 
仓库 提供 数据 。 

ETL 过 程 : ETL 过 程 从 操作 型 系统 抽取 数据 ， 然 后 将 数据 转换 成 
一 种 标准 形式 ， 最 终 将 转换 后 的 数据 装载 到 企业 级 数据 仓库 中 。 

ETL 是 周期 性 运行 的 批 处 理 过 程 。 

企业 级 数据 仓库 : 是 该 架构 中 的 核心 组 件 。 正 如 Inmon 数 据 仓 库 
所 定义 的 ， 企 业 级 数据 仓库 是 一 个 细 市 数据 的 集成 资源 库 。 其 中 
的 数据 以 最 低 粒 度 级 别 被 捕获 ， 存 储 在 满足 三 范式 设计 的 关系 数 
据 库 中 。 

部 门 级 数据 集 市 : 是 面向 主题 数据 的 部 门 级 视图 ， 数 据 从 企业 级 
数据 仓库 获取 。 数 据 在 进入 部 门 数 据 集 市 时 可 能 进行 聚合 。 数 据 
集 市 使 用 多 维 模 型 设计 ， 用 于 数据 分 析 。 重 要 的 一 点 是 ， 所 有 的 
报表 工具 、BI 工 具 或 其 他 数据 分 析 应 用 都 从 数据 集 市 查询 数据 ， 

而 不 是 直接 查询 企业 级 数据 仓库 。 


2. Kimball 数 据 仓库 架构 








Kimball 数 据 仓 库 架 构 如 图 1-5 所 示 。 
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图 1-5 Kimball 数 据 仓 库 架 构 








对 比 上 一 张 图 可 以 看 到 ，Kimball 与 mhmon 两 种 架构 的 主要 区 别 在 于 
核心 数据 仓库 的 设计 和 建立 。Kimball 的 数据 仓库 包含 高 粒度 的 企业 数 
据 ， 使 用 多 维 模型 设计 ， 这 也 意味 着 数据 仓库 由 星 型 模式 的 维度 表 和 事 
实 表 构成 。 分 析 系 统 或 报表 工具 可 以 直接 访问 多 维 数据 仓库 里 的 数据 。 
在 此 架构 中 的 数据 集 市 也 与 mhmon 中 的 不 同 。 这 里 的 数据 集 市 是 一 个 好 
辑 概 念 ， 只 是 多 维 数据 仓库 中 的 主题 域 划分 ， 并 没有 上 自己 的 物理 存储 ， 
也 可 以 说 是 虚拟 的 数据 集 市 。 


3. 混合 型 数据 仓库 架构 


混合 型 数据 仓库 架构 如 图 1-6 所 示 。 
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图 1-6 ”混合 型 数据 仓库 架构 


所 谓 的 混合 型 结构 ， 指 的 是 在 一 个 数据 仓库 环境 中 ， 联 合 使 用 
Inmon 和 Kimball 两 种 架构 。 从 架构 图 可 以 看 到 ， 这 种 架构 将 Inmon 方 法 
中 的 数据 集 市 部 分 蔡 换 成 了 一 个 多 维 数据 仓库 ， 而 数据 集 市 则 是 多 维 数 
据 仓 库 上 的 逻辑 视图 。 使 用 这 种 架构 的 好 处 是 ， 既 可 以 利用 规范 化 设计 
消除 数据 见 余 ， 保 证 数据 的 粒度 足够 细 ; 又 可 以 利用 多 维 结构 更 灵活 地 
在 企业 级 实现 报表 和 分 析 。 


1.3.3 ”操作 数据 存储 


操作 数据 存储 又 称 为 ODS， 是 Operational Data Store 的 简写 ， 其 定 
义 是 这 样 的 : 一 个 面向 主题 的 、 集 成 的 、 可 变 的 、 当 前 的 细节 数据 集 
合 ， 用 于 支持 企业 对 于 即时 性 的 、 操 作 性 的 、 集 成 的 全 体 信息 的 需求 。 
对 比 1.1 节 中 数据 仓库 的 定义 不 难看 出 ， 操 作 型 数据 存储 在 某 些 方面 具 
有 类 似 于 数据 仓库 的 特点 ， 但 在 男 一 些 方面 又 显著 不 同 于 数据 仓库 。 








。 像 数据 仓库 一 样 ， 是 面向 主题 的 。 

。 像 数据 仓库 一 样 ， 其 数据 是 完全 集成 的 。 

e 数据 是 当前 的 ， 这 与 数据 仓库 存储 历史 数据 的 性 质 明 显 不 同 。 
ODS 具 有 最 少 的 历史 数据 (一 般 是 30 天 到 60 天 ) ， 而 尽 可 能 接近 


实时 地 展示 数据 的 状态 。 

数据 是 可 更 新 的 ， 这 是 与 静态 数据 仓库 又 一 个 很 大 的 区 别 。ODS 
就 如 同一 个 事务 处 理 系统 ， 当 新 的 数据 流 进 ODS 时 ， 受 其 影响 的 
字段 被 新 信息 上 履 兰 。 

数据 几乎 完全 是 细 市 数据 %， 仅 具有 少量 的 动态 聚集 或 汇总 数据 。 
通 第 将 ODS 设 计 成 包含 事务 级 的 数据 ， 即 包含 该 主题 域 中 最 低 粒 
度 级 别 的 数据 。 

在 数据 仓库 中 ， 几 乎 没有 针对 其 本 身 的 报表 ， 报 表 均 放 到 数据 集 
市 中 完成 ， 与 此 不 同 ， 在 ODS 中 ， 业 务 用 户 频 繁 地 直接 访问 
ODS. 























在 一 个 数据 仓库 环境 中 ，ODS 具 有 如 下 几 个 作用 


充当 业务 系统 与 数据 仓库 之 间 的 过 渡 区 。 数 据 仓 库 的 数据 来 源 复 
杂 ， 可 能 分 布 在 不 同 的 数据 库 ， 不 同 的 地 理 位 置 ， 不 同 的 应 用 系 
统 之 中 ， 而 且 由 于 数据 形式 的 多 样 性 ， 数 据 转 换 的 规则 往往 极为 
复杂 。 如 宋 直 接 从 业务 系统 抽取 数据 并 做 转换 ， 不 可 避免 地 会 对 
业务 系统 造成 影响 。 而 ODS 中 存放 的 数据 从 数据 结构 、 数 据 粒 

度 、 数 据 之 间 的 逻辑 关系 上 都 与 业务 系统 基本 保持 一 致 ， 因 此 抽 
取 过 程 只 需 简 单 的 数据 复制 而 基本 不 再 需要 做 数据 转换 ， 大 大 降 
低 了 复杂 性 ， 同 时 最 小 化 对 业务 系统 的 侵入 。 

转移 部 分 业务 系统 细 市 查询 的 功能 。 茶 些 原 来 由 业务 系统 产生 的 
报表 、 细 节 数 据 的 查询 能 够 在 ODS 中 进行 ， 从 而 降低 业务 系统 的 
查询 压力 。 

完成 数据 仓库 中 不 能 完成 的 一 些 功能 。 用 户 有 时 会 要 求 数据 仓库 
查询 最 低 粒 度 级 别 的 细节 数据 ， 而 数据 仓库 中 存储 的 数据 一 般 都 
征 聚 合 或 汇总 过 的 数据 ， 并 不 存储 每 笔 交 易 产 生 的 细节 数据 。 这 
时 瓯 需要 把 细节 数据 查询 的 功能 转移 到 ODS 来 完成 ， 而 且 ODS 的 
数据 模型 是 按照 面 同 主题 的 方式 组 织 的 ， 可 以 方便 地 支持 多 维 分 








析 。 即 数据 仓库 从 宏观 角度 满足 企业 的 决策 支持 要 求 ， 而 ODS 层 
则 从 微观 角度 反映 细 市 交易 数据 或 者 低 粒 肛 的 数据 查询 要 求 。 





1.4 抽取 -转换 -小 载 


前 面 已 经 多 次 提 到 了 ETL 一 词 ， 它 是 Extract、Transform、Load 三 个 
页 文 单词 首 字 母 的 简写 ， 中 文 意 为 抽取 、 转 换 、 闭 载 。ETL 是 建立 数据 
仓库 最 重要 的 处 理 过 程 ， 也 是 最 体现 工作 量 的 环节 ， 一 般 会 占 到 整个 数 
据 仓库 项 目 工 作 量 的 一 半 以 上 。 








。 抽取 : 从 操作 型 数据 源 获取 数据 。 
e 转换 ;转换 数据 ， 使 之 转变 为 适用 于 查询 和 分 析 的 形式 和 结构 。 
e 装载 ， 将 转换 后 的 数据 导入 到 最 终 的 目标 数据 仓库 。 


建立 一 个 数据 仓库 ， 就 是 要 把 来 目 于 多 个 异 构 的 源 系统 的 数据 集成 
在 一 起 ， 放 置 于 一 个 集中 的 位 置 用 于 数据 分 机。 如 果 一 开始 这 些 源 系 统 
数据 就 是 兼容 的 当然 最 好 ， 但 情况 往往 不 是 这 样 。ETIL 系 统 的 工作 就 是 
要 把 异 构 的 数据 转换 成 同 构 的 。 如 果 没 有 ETL， 不 可 能 对 寞 构 的 数据 进 
行程 序 化 的 分 析 。 


1.4.1 数据 抽取 


抽取 操作 从 源 系统 获取 数据 给 后 续 的 数据 仓库 环境 使 用 。 这 是 ETL 
处 理 的 第 一 步 ， 也 是 最 重要 的 一 步 。 数 据 被 成 功 抽取 后 ， 才 可 以 进行 转 
换 并 装载 到 数据 仓库 中 。 能 否 正确 地 获取 数据 直接 关系 到 后 面 步骤 的 成 
败 。 数 据 仓库 典型 的 源 系统 是 事务 处 理应 用 ， 例 如 ， 一 个 销售 分 析 数 据 
仓库 的 源 系 统 之 一 ， 可 能 是 一 个 订单 录入 系统 ， 其 中 包含 当前 销售 订单 
相关 操作 的 全 部 记录 。 


设计 和 建立 数据 抽取 过 程 ， 在 ETL 处 理 力 至 整个 数据 仓库 处 理 过 程 














中 ， 一 般 是 较为 耗 时 的 任务 。 源 系统 很 可 能 非常 复杂 并 且 缺 少 相 应 的 文 
档 ， 因 此 只 是 决定 需要 抽取 哪些 数据 可 能 就 已 经 非 第 困难 了 。 通 常数 据 
都 不 是 只 抽取 一 次 ， 而 是 需要 以 一 定 的 时 间 间 隅 反复 抽取 ， 通 过 这 样 的 
方式 把 数据 的 所 有 变化 提供 给 数据 仓库 ， 并 保持 数据 的 及 时 性 。 除 此 之 
外 ， 源 系统 一 般 不 允许 外 部 系统 对 它 进 行 修改 ， 也 不 允许 外 部 系统 对 它 
的 性 能 和 可 用 性 产生 影响 ， 数 据 仓 库 的 抽取 过 程 要 能 适应 这 样 的 需求 。 
如 采 已 经 明确 了 需要 抽取 的 数据 ， 下 一 步 就 该 考虑 从 源 系 统 抽取 数据 的 
UiA Te 

对 抽取 方法 的 选择 高 度 依赖 于 源 系 统 和 目标 数据 仓库 环境 的 业务 需 
要 。 一 般 情 况 下 ， 不 可 能 因为 需要 提升 数据 抽取 的 性 能 ， 而 在 源 系 统 中 
添加 额外 的 多 辑 ， 也 不 能 增加 这 些 源 系统 的 工作 负载 。 有 时， 用 户 甚 至 
都 不 允许 增加 任何 “ 开 箱 即 用 ”的 外 部 应 用 系统 ， 这 叫做 对 源 系 统 上 共有 侵 
入 性 。 下 面 分 别 从 逻辑 和 物理 两 方面 介绍 数据 抽取 方法 。 


1. 人 逻辑 抽取 
有 两 种 逻辑 抽取 类 型 : 全 量 抽取 和 增 量 抽取 。 





(1) 全 量 抽取 


源 系统 的 数据 全 部 被 抽取 。 因 为 这 种 抽取 类 型 影响 源 系统 上 当前 所 
有 有 效 的 数据 ， 所 以 不 需要 跟踪 目 上 次 成 功 抽取 以 来 的 数据 变化 。 源 系 
统 只 需要 原样 提供 现 有 的 数据 而 不 怖 要 附加 的 逻辑 信息 《比如 时 间 戳 
等 ) 。 一 个 全 表 导 出 的 数据 文件 或 者 一 个 合 询 源 表 所 有 数据 的 SQL 语 
句 ， 都 是 全 量 抽 取 的 例子 。 





(2) 增 量 抽 取 


只 抽取 某 个 事件 发 生 的 特定 时 间 点 之 后 的 数据 。 通 过 该 事件 发 生 的 


时 间 顺 序 能 够 反映 数据 的 历史 变化 ， 它 可 能 是 最 后 一 次 成 功 抽取 ， 也 可 
能 是 一 个 复杂 的 业务 事件 ， 如 最 后 一 次 财务 结算 等 。 必 须 能 够 标识 出 特 
定时 间 点 之 后 所 有 的 数据 变化 。 这 些 发 生变 化 的 数据 可 以 由 源 系 统 目 喘 
来 提供 ， 例 如 能 够 反映 数据 最 后 发 生变 化 的 时 间 戳 列 ， 或 者 是 一 个 原始 
事务 处 理 之 外 的 ， 只 用 于 跟踪 数据 变化 的 变更 日 志 表 。 大 多 数 情 况 下 ， 
使 用 后 者 意味 着 需要 在 源 系 统 上 增加 抽取 逻辑 。 


在 许多 数据 仓库 中 ， 抽 取 过 程 不 含 任何 变化 数据 捕获 技术 。 取 而 代 
之 的 是 ， 把 源 系 统 中 的 整个 表 抽 取 到 数据 仓库 过 流 区 ， 然 后 用 这 个 表 的 
数据 和 上 次 从 源 系统 抽取 得 到 的 表 数 据 作 比 对 ， 从 而 找 出 发 生变 化 的 数 
Hio 虽然 这 种 方法 不 会 对 源 系 统 造 成 很 大 的 影响 ， 但 显然 需要 考虑 给 数 
据 仓 库 处 理 增加 的 人 负担， 尤其 是 当 数 据 量 很 大 的 时 候 。 


2. 物理 抽取 


依赖 于 选择 的 逻辑 抽取 方法 和 能 够 对 源 系 统 所 做 的 操作 和 所 受 的 限 
制 ， 存 在 两 种 物理 数据 抽取 机 制 : 直接 从 源 系 统 联 机 抽取 或 者 间接 从 一 
个 脱 机 结构 抽取 数据 。 这 个 脱 机 结构 有 可 能 已 经 存在 ， 也 可 能 需要 由 抽 
取 程 序 生成 。 


























C1) 联机 抽取 


数据 直接 从 源 系 统 抽 取 。 抽 取 进 程 或 者 直 连 源 系 统 数 据 库 ， 访 问 它 
们 的 数据 表 ， 或 者 连接 到 一 个 存储 快照 日 志 或 变更 记录 表 的 中 间 层 系 
统 。 注 意 这 个 中 间 层 系统 并 不 需要 必须 和 源 系 统 物理 分 离 。 





(20 脱 机 抽取 


数据 不 从 源 系统 直接 抽取 ， 而 是 从 一 个 源 系统 以 外 的 过 渡 区 抽取 。 
过 流 区 可 能 已 经 存在 〈 例 如 数据 库 备 份 文 件 、 关 系数 据 库 系统 的 重 做 日 














志 、 归 档 日 志 等 ) ， 或 者 抽取 程序 自己 建立 。 应 该 考虑 以 下 的 存储 结 
MJ: 





e 数据 库 备 份 文件 。 一 般 需 要 数据 还 原 操 作 才 能 使 用 。 

e 备用 数据 库 。 如 Oracle 的 DataGuard 和 MySQL 的 数据 复制 等 技 
A. 

e 平面 文件 。 数 据 定义 成 普通 格式 ， 关 于 源 对 象 的 附加 信息 《〈 列 
名 、 数 据 类 型 等 ) 需要 另外 处 理 。 

e 导出 文件 。 关 系数 据 库 大 都 自 融 数据 导出 功能 ， 如 Oracle 的 
exp/expdp 程 序 和 MySQL 的 mysqldump 程 序 ， 都 可 以 用 于 生成 导出 








数据 文件 。 
e 重 做 日 志和 归档 日 过。 每 种 数据 库 系 统 都 有 上 自己 的 日 志 格 式 和 解 
HOA. 


3. 变化 数据 捕获 


抽取 处 理 需要 重点 考虑 增 量 抽取 ， 也 被 称 为 变化 数据 捕获 ， 简 称 
CDC。 假 设 一 个 数据 仓库 系统 ， 在 每 天 夜里 的 业务 低 峰 时 间 从 操作 型 源 
系统 抽取 数据 ， 那 么 增 量 抽取 只 希 要 过 去 24 小 时 内 发 生变 化 的 数据 。 变 
化 数据 捕获 也 是 建立 准 实 时 数据 仓库 的 关键 技术 。 

当 你 能 够 识别 并 获得 最 近 发 生变 化 的 数据 时 ， 抽 取 及 其 后 面 的 转 
换 、 凌 载 操 作 显 然 都 会 变 得 更 高 效 ， 因 为 要 处 理 的 数据 量 会 小 很 多 。 壮 
憾 的 是 ， 很 多 源 系统 很 难 识别 出 最 近 变 化 的 数据 ， 或 者 必须 侵入 源 系 统 
才能 做 到 。 变 化 数据 捕获 是 数据 抽取 中 典型 的 技术 挑战 。 

常用 的 变化 数据 捕获 方法 有 时 间 戳 、 快 照 、 触 发 喜 和 日 志 四 种 。 相 
信康 悉 数据 库 的 读者 对 这 些 方法 都 不 会 陌生。 时 间 惟 方法 需要 源 系 统 有 
相应 的 数据 列表 示 最 后 的 数据 变化 。 快 照 方法 可 以 使 用 数据 库 系 统 自 带 
的 机 制 实现 ， 如 Oracle 的 物化 视图 技术 ， 也 可 以 自己 实现 相关 逻辑 ， 但 




















会 比较 复杂 。 触 发 器 是 关系 数据 库 系 统 具 有 的 特性 ， 源 表 上 建立 的 触发 
器 会 在 对 该 表 执 行 insert、update、delete 等 语句 时 被 触发 ， 触 发 器 中 的 
逻辑 用 于 捕获 数据 的 变化 。 日 志 可 以 使 用 应 用 日 志 或 系统 日 志 ， 这 种 方 
式 对 源 系统 不 具有 侵入 性 ， 但 需要 额外 的 日 志 解 析 工 作 。 关 于 这 4 种 方 
案 的 特点 ， 将 会 在 本 书 第 7 章 “ 数 据 抽取 ”具体 说 明 。 


1.4.2 ”数据 转换 


数据 从 操作 型 源 系 统 获 取 后 ， 需 要 进行 多 种 转换 操作 。 如 统一 数据 
类 型 、 处 理 拼 写 错误 、 消 除数 据 歧义 、 解 析 为 标准 格式 等 。 数 据 转 换 通 
各 是 最 复杂 的 部 分 ， 也 是 ETL 开 发 中 用 时 最 长 的 一 步 。 数 据 转 换 的 范围 
极 广 ， 从 单纯 的 数据 类 型 转化 到 极为 复杂 的 数据 清洗 技术 。 


在 数据 转换 阶段 ， 为 了 能 够 最 终 将 数据 装载 到 数据 仓库 中 ， 需 要 在 
己 经 抽取 来 的 数据 上 应 用 一 系列 的 规则 和 函数 。 有 些 数据 可 能 不 需要 转 
换 就 能 直接 导入 到 数据 仓库 。 


数据 转换 一 个 最 重要 的 功能 是 清洗 数据 ， 目 的 是 只 有 “ 合 规 ” 的 数据 
才能 进入 目标 数据 仓库 。 这 步 操作 在 不 同系 统 间 交互 和 通信 时 尤其 必 
要 ， 例 如 ， 一 个 系统 的 字符 集 在 另 一 个 系统 中 可 能 是 无 效 的 。 另 一 方 
面 ， 由 于 某 些 业务 和 技术 的 需要 ， 也 需要 进行 多 种 数据 转换 ， 例 如 下 面 
的 情况 : 














只 装载 特定 的 数据 列 。 例 如 ， 某 列 为 空 的 数据 不 装载 。 

统一 数据 编码 。 例 如 ， 性 别 字 段 ， 有 些 系 统 使 用 的 是 1 和 0， 有 些 
EMME, HEEP MK, ARMM F -o 
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预计 算 。 例 如 ， 产 品 单价 * 购 买 数量 三 金额 。 

基于 某 些 规则 重新 排序 以 提高 查询 性 能 。 

合并 多 个 数据 源 的 数据 并 去 重 。 





预 聚 合 。 例 如 ， 汇 总 销售 数据 。 

行列 转 置 。 

将 一 列 转 为 多 列 。 例 如 ， 某 列 存储 的 数据 是 以 逗号 作为 分 隔 符 的 
字符 串 ， 将 其 分 割 成 多 列 的 单个 值 。 

合并 重复 列 。 

预 连接 。 例 如 ， 碍 询 多 个 关联 表 的 数据 。 

数据 验证 。 针 对 验证 的 结果 采取 不 同 的 处 理 ， 通 过 验证 的 数据 交 
给 装载 步 又， 验证 失败 的 数据 或 直接 丢 痉 ， 或 记录 下 来 做 进一步 
检查 。 


1.4.3 ”数据 装载 


ETIL 的 最 后 步骤 是 把 转换 后 的 数据 装载 进 目标 数据 仓库 。 这 步 操作 
需要 重点 考虑 两 个 问题 ， 一 是 数据 闭 载 的 效率 问题 ， 二 是 一 旦 装载 过 程 
中 途 失 败 了 ， 如 何 再 次 重复 执行 装载 过 程 。 


即使 经 过 了 转换 、 过 滤 和 和 清洗， 去掉 了 部 分 噪声 数据 ， 但 需要 装载 
的 数据 量 还 是 很 大 的 。 执 行 一 次 数据 装载 可 能 需要 几 个 小 时 的 时 间 ， 同 
时 需要 占用 大 量 的 系统 资源 。 要 提高 装载 的 效率 ， 加 快 装 载 速度 ， 可 以 
从 以 下 几 方 面 入 手 。 首 先 保证 足够 的 系统 资源 。 数 据 仓库 存储 的 都 是 海 
量 数 据 ， 所 以 要 配置 高 性 能 的 服务 器 ， 并 且 要 独占 资源 ， 不 要 与 别 的 系 
统 共用 。 在 进行 数据 装载 持 ， 要 禁用 数据 库 约束 (唯一 性 、 非 空 性 ， 检 
BARKS) 和 索引 ， 当 装载 过 程 完 全 结束 后 ， 再 启用 这 些 约束 ， 重 建 索 
引 ， 这 种 方法 会 很 大 的 提高 装载 速度 。 在 数据 仓库 环境 中 ， 一 般 不 使 用 
数据 库 来 保证 数据 的 参考 完整 性 ， 即 不 使 用 数据 库 的 外 键 约束 ， 它 应 该 
由 ETL 工 具 或 程序 来 维护 。 

数据 装载 过 程 可 能 由 于 多 种 原因 而 失败 ， 比 如 装载 过 程 中 某 些 源 表 
和 目标 表 的 结构 不 一 致 而 导致 失败 ， 而 这 时 已 经 有 部 分 表 装 载 成 功 了 。 
在 数据 量 很 大 的 情况 下 ， 如 何 能 在 重新 执行 装载 过 程 时 只 装载 失败 的 部 























分 是 一 个 不 小 的 挑战 。 对 于 这 种 情况 ， 实 现 可 重复 装载 的 关键 是 要 记录 
下 失败 点 ， 并 在 装载 程序 中 处 理 相关 的 逻辑 。 还 有 一 种 情况 ， 就 是 装载 
成 功 后 ， 数 据 又 发 生 了 改变 〈 比 如 有 些 滞后 的 数据 在 EIL 执 行 完 才 进入 
系统 ， 就 会 带 来 数据 的 更 新 或 新 增 ) ， 这 时 需要 重新 再 执行 一 遍 装 载 过 
程 ， 已 经 正确 装载 的 数据 可 以 被 覆盖 ， 但 相同 数据 不 能 重复 新 增 。 简 单 
的 实现 方式 是 先 删除 再 插入 ， 或 者 用 replace into. merge into 等 类 似 功能 
的 操作 。 

装载 到 数据 仓库 里 的 数据 ， 经 过 汇总 、 聚 合 等 处 理 后 交付 给 多 维 立 
方 体 或 数据 可 视 化 、 仪 表盘 等 报表 工具 、BI 工 具 做 进一步 的 数据 分 析 。 


1.4.4 开发 ETL 系 统 的 方法 








ETL 系 统一 般 都 会 从 多 个 应 用 系统 整合 数据 ， 典 型 的 情况 是 这 些 应 
用 系统 运行 在 不 同 的 软 硬 件 平台 上 ， 由 不 同 的 厂商 所 支持 ， 各 个 系统 的 
开发 团队 也 是 彼此 独立 的 ， 随 之 而 来 的 数据 多 样 性 增加 了 ETL 系 统 的 复 
ARTE. 

开发 一 个 ETL 系 统 ， 常 用 的 方式 是 使 用 数据 库 标 准 的 SQL 及 其 程序 
化 语言 ， 如 Oracle 的 PL/SQL 和 MySQL 的 存储 过 程 、 用 户 自 定义 函数 
(UDF) 等 。 还 可 以 使 用 Kettle 这 样 的 ETL 工 具 ， 这 些 工 具 都 提供 多 种 
数据 库 连接 器 和 多 种 文件 格式 的 处 理 能 力 ， 并 且 对 ETL 处 理 进行 了 优 
化 。 使 用 工具 的 最 大 好 处 是 减少 编程 工作 量 ， 提 高 工作 效率 。 如 果 遇 到 
特殊 需求 或 特别 复杂 的 情况 ， 可 能 还 是 需要 使 用 Shell、Java、Python 等 
编程 语言 开发 自己 的 应 用 程序 。 

ETL 过 程 要 面 对 大 量 的 数据 ， 因 此 需要 较 长 的 处 理 时 间 。 为 了 提高 
ETL 的 效率 ， 通 常 这 三 步 操 作 会 并 行 执 行 。 当 数据 被 抽取 时 ， 转 换 进 程 
同时 处 理 已 经 收 到 的 数据 。 一 旦 某 些 数据 被 转换 过 程 处 理 完 ， 装 载 进程 
就 会 将 这 些 数 据 导入 目标 数据 仓库 ， 而 不 会 等 到 前 一 步 工 作 执行 完 才 开 


始 。 
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传统 大 的 软件 厂商 一 般 都 提供 ETL 工 具 软 件 ， 如 Oracle 的 OWB 和 
ODI、 微 软 的 SQL Server Integration Services、SAP 的 Data Integrator. 
IBM 的 InfoSphere DataStage、Informatica 等 。 这 里 简单 介绍 另外 一 种 开 
源 的 ETL 工 具 一 一 Kettle。 


Kettle 是 Pentaho 公 司 的 数据 整合 产品 ， 它 可 能 是 现在 世界 上 最 流行 
的 开源 ETL 工 具 ， 经 种 被 用 于 数据 仓库 环境 。Kettle 的 使 用 场景 包括 : 
在 应 用 或 数据 库 间 迁移 数据 、 把 数据 库 中 的 数据 导出 成 平面 文件 、 辐 数 
据 库 大 批量 村 入 数据 、 数 据 转换 和 清洗 、 应 用 整合 等 。 


Kettle 里 主要 有 “转换 ”和 “作业 ”两 个 功能 模块 。 转 换 是 ETL 人 解决 方案 
中 最 主要 的 部 分 ， 它 处 理 ETL 各 阶段 各 种 对 数据 的 操作 。 转 换 有 输入 、 
和 输出、 检验、 上 映射、 加 密 、 脚 本 等 很 多 分 类 ， 每 个 分 类 中 包括 多 个 步 
又， 如 输入 转换 中 就 有 表 输 入 、CSV 文 件 输入 、 文 本 文件 输入 等 很 多 步 
又 。 转 换 里 的 步骤 通过 跳 Chop) 来 连接 ， 跳 定义 了 一 个 单 加 通道， 多 
许 数据 从 一 个 步骤 流 癌 另外 一 个 步骤 。 在 Kettle 里 ， 数 据 的 单位 是 行 ， 
数据 流 惑 是 数据 行 从 一 个 步骤 到 另 一 个 步骤 的 移动 。 

转换 是 以 并 行 方式 执行 的 ， 而 作业 则 是 以 串 行 方式 处 理 的 ， 验 证 数 
据 表 是 否 存在 这 样 的 操作 就 需要 作业 来 完成 。 一 个 作业 包括 一 个 或 多 个 
作业 项 ， 作 业 项 是 以 某 种 顺序 来 执行 的 ， 作 业 执 行 顺序 由 作业 项 之 间 的 
BE Chop) 和 每 个 作业 项 的 执行 结果 决定 。 和 转换 一 样 ， 作 业 也 有 很 多 
分 类 ， 每 个 分 类 中 包括 多 个 作业 项 ， 如 转换 就 是 一 个 通用 分 类 里 的 作业 
项 。 作 业 项 也 可 以 是 一 个 作业 ， 此 时 称 该 作业 为 子 作 业 。 

Kettle 非 常 容 易 使 用 ， 其 所 有 的 功能 都 通过 用 户 界面 完成 ， 不 需要 
任何 编码 工作 。 你 只 需要 告诉 它 做 什么 ， 而 不 用 指示 它 怎 么 做 ， 这 大 大 
提高 了 ETL 过 程 的 开发 效率 。 本 书 第 5 章 将 会 详细 说 明 怎 样 使 用 Kettle 操 
作 Hadoop 数 据 。 














1.5 数据 仓库 需求 





本 小 节 从 基本 需求 和 数据 需求 两 方面 介绍 对 数据 仓库 系统 的 整体 要 
求 。 


1.5.1 基本 需求 

数据 仓库 的 目的 束 是 能 够 让 用 户 方便 地 访问 大 量 数据 ， 人 允许 用 户 查 
询 和 分 析 其 中 的 业务 信息 。 这 就 要 求 数据 仓库 必须 是 安全 的 、 可 访问 的 
和 上 自动 化 的 。 


1. 安全 性 








数据 仓库 中 含有 机 密 和 敏感 的 数据 。 为 了 能 够 使 用 这 些 数据 ， 必 须 
有 适当 的 授权 机 制 。 这 意味 着 只 有 被 授权 的 用 户 才 能 访问 数据 ， 这 些 用 
户 在 享有 特权 的 同时 ， 也 有 责任 保证 数据 的 安全 。 

增加 安全 特性 会 影响 到 数据 仓库 的 性 能 ， 因 此 必须 提早 考虑 数据 仓 
库 的 安全 需求 。 当 数据 仓库 已 经 建立 完成 并 开始 使 用 后 ， 此 时 再 应 用 安 
全 特性 会 比较 困难 。 在 数据 仓库 的 设计 阶段 ， 我 们 就 应 该 进行 如 下 的 安 
全 性 考虑 : 














。 数据 仓库 中 的 数据 对 于 最 终 用 户 是 只 读 的 ， 任 何人 都 不 能 修改 其 
中 的 数据 ， 这 是 由 数据 的 非 易 失 性 所 决定 的 。 

e 划分 数据 的 安全 等 级 ， 如 公开 的 、 机 密 、 秘 密 、 绝 密 等 。 

。 制定 访问 控制 方案 ， 决 定 哪 些 用 户 可 以 访问 哪些 数据 。 

e 设计 授予 、 回 收 、 变 更 用 户 访问 权限 的 方法 。 

e. 添加 对 数据 访问 的 审计 功能 。 





2. 可 访问 性 


能 够 快速 准确 地 分 析 所 需要 的 数据 是 辅助 决策 文 持 的 关键 。 有 了 数 
气 的 文 持 ， 业 务 就 可 以 根据 市 场 和 客户 的 情况 做 出 及 时 地 调整 。 这 就 要 
求 用 户 能 够 有 效 地 查找 、 理 解 和 使 用 数据 。 数 据 应 该 是 随时 可 访问 的 。 


数据 的 可 访问 性 是 一 个 IT 技术 的 通用 特性 。 这 里 数据 可 访问 性 指 的 
古 用 户 访 问 和 检索 数据 的 能 力 。 数 据 仓库 的 最 终 用 户 通 常 是 业务 人 员 、 
管理 人 员 或 者 数据 分 析 师 。 他 们 对 组 织 内 的 相关 业务 非常 熟悉 ， 对 数据 
的 理解 也 很 透彻 ， 但 是 他 们 大 都 不 是 IT 技术 专家 。 这 就 要 求 我 们 在 设计 
数据 仓库 的 时 候 ， 将 用 户 接 口 设计 得 尽量 友好 和 简单 ， 使 得 没有 技术 背 
景 的 用 户 同样 可 以 轻易 碍 询 到 他 们 需要 的 数据 。 


3， 目 动 化 


这 里 的 目 动 化 有 狭义 和 广义 两 个 层面 的 理解 。 狭 义 的 目 动 化 指 的 是 
数据 仓库 相关 作业 的 目 动 执行 。 比 如 ETL 过 程 、 报 表 生 成 、 数 据 传输 等 
处 理 ， 都 可 以 周期 性 定时 目 动 完成 。 广 义 的 数据 仓库 目 动 化 指 的 古 在 保 
证 数据 质量 和 数据 一 致 性 的 前 担 下 ， 加 速 数据 仓库 系统 开发 周期 的 过 
程 。 整 个 数据 仓库 生命 周期 的 目 动 化 ， 从 对 源 系 统 分 析 到 ETL， 再 到 数 
据 仓 库 的 建立 、 测 试 和 文档 化 ， 可 以 帮助 加 快 产 品 化 进程 ， 降 低 开 发 和 
管理 成 本 ， 提 高 数据 质量 。 


15.2 ”数据 需求 


通过 数据 仓库 ， 既 可 以 周期 性 地 回答 已 知 的 问题 〈 如 报表 等 ) d 
可 以 进行 即席 查询 Cad-hoc queries) 。 报 表 最 基本 的 需求 就 是 对 预定 义 
好 的 一 系列 查询 条 件 、 碍 询 内 容 ， 排 序 条 件 等 进行 组 合 ， 碍 询 数据 ， 把 
结果 用 表格 或 图 形 的 形式 展现 出 来 。 而 所 谓 的 即席 查询 不 是 预定 义 好 
的 ， 而 是 在 执行 时 才 确 定 的 。 换 句 话说 ， 即 席 查 询 是 指 那 些 用 户 在 使 用 
系统 时 ， 根 据 上 自己 当时 的 需求 定义 的 查询 。 数 据 库 管 理 员 使 用 命令 行 或 
客户 问 软 件 ， 连 接 数据 库 系 统 执行 各 种 各 样 的 查询 语句 ， 是 最 为 常见 的 
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以 通过 系统 执行 这 样 的 自 定义 查询 。 为 了 满足 需求 ， 数 据 仓库 中 的 数据 
需要 确保 准确 性 、 时 效 性 和 历史 可 奶 济 性 。 


1. 准确 性 


想 要 数据 仓库 实施 成 功 ， 业 务 用 户 必须 信任 其 中 的 数据 。 这 就 意味 
着 他 们 应 该 能 知道 数据 从 哪 来 ， 何 时 抽取 ， 怎 么 转换 的 。 更 重要 的 是 ， 
他 们 需要 访问 原始 数据 来 确定 如 何 解 决 数据 差异 问题 。 实 际 上 ETL 过 程 
应 该 总 是 在 数据 仓库 的 东 个 地 方 〈 如 ODS) 保留 一 份 原 始 数据 的 复制 。 


2. 时 效 性 





用 户 的 时 效 性 要 求 差 异 很 大 。 有 些 用 户 需要 数据 精确 到 坚 秒 级 ， 而 
有 些 用 户 只 需要 几 分 钟 、 几 小 时 甚至 几 天 前 的 数据 就 可 以 了 。 数 据 仓库 
是 分 析 型 系统 ， 用 于 决策 支持 ， 所 以 实践 中 一 般 不 需要 很 强 的 实时 性 ， 
以 一 天 作为 时 间 粒 度 是 比较 常见 的 。 


3. py seing E 








数据 仓库 更 多 的 价值 体现 在 它 能 够 辅助 随时 间 变 化 的 趋势 分 析 ， 并 
帮助 理解 业务 事件 (如 特殊 节日 促销 等 ) 与 经 营 绩效 之 间 的 关系 。 








1.6 小结 


(1) 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 非 易 
失 的 数据 集合 ， 用 于 文 持 管 理 者 的 决策 过 程 。 

(2) 数据 仓库 中 的 粒度 是 指数 据 的 细 贡 或 汇总 程度 ， 细 节 程 度 越 
Po MERIR. 


(3) 数据 仓库 的 数据 来 自 各 个 业务 应 用 系统 。 

(4) 很 多 因素 导致 直接 访问 业务 系统 无 法 进行 全 局 数据 分 析 的 工 
作 ， 这 也 是 需要 一 个 数据 仓库 的 原因 所 在 。 

(5) 操作 型 系统 是 一 类 专门 用 于 管理 面向 事务 的 应 用 信息 系统 ， 
而 分 析 型 系统 是 一 种 快速 回答 多 维 分 析 查 询 的 实现 方式 ， 两 者 在 很 多 方 
面 存 在 差异 。 

(6) 构成 数据 仓库 系统 的 主要 组 成 部 分 有 数据 源 、ODS、 中 心 数 
据 仓 库 、 分 析 查 询 引 擎 、ETL、 元 数据 管理 和 自动 化 调度 。 

(7) 主要 的 数据 仓库 架构 有 独立 数据 集 市 、 从 属 数据 集 市 、Inmon 
企业 信息 工厂 、Kimball 多 维 数据 人 仓库、 混合 型 数据 仓库 。 

(8) ETL 是 建立 数据 仓库 最 重要 的 处 理 过 程 ， 也 是 最 体现 工作 量 
的 环节 。 

(9) Kettle 是 常用 的 开源 ETL 工 具 。 

(100 数据 仓库 的 基本 需求 是 安全 性 、 可 访问 性 、 自 动 化， 对 数据 
的 要 求 是 准确 性 、 时 效 性 、 历 史 可 妃 溯 性 。 

















第 2 章 


起 数 据 仓 库 设 计 基 础 > 


本 章 首 先 介绍 关系 数据 模型 、 多 维 数据 模型 和 Data ”Vault 模型 这 三 
种 常见 的 数据 仓库 模型 和 与 之 相关 的 设计 方法 ， 然 后 讨论 数据 集 市 的 设 
计 问 题 ， 了 最 后 说 明 一 个 数据 仓库 项 目的 实施 步骤 。 规 划 实 施 过 程 是 整个 
数据 仓库 设计 的 重要 组 成 部 分 。 

关系 模型 、 多 维 模 型 已 经 有 很 长 的 历史 ， 而 Data ”Vault 模 型 相对 比 
较 新 。 它 们 都 是 流行 的 数据 仓库 建 模 方 式 ， 但 又 有 各 目的 特点 和 运用 场 
景 。 读 者 在 了 解 了 本 章 的 内 容 后 ， 可 以 根据 实际 需求 选择 适合 的 方法 构 
建 自己 的 数据 仓库 。 








2.1 关系 数据 模型 


关系 模型 是 由 E.F.Codd 在 1970 年 提出 的 一 种 通用 数据 模型 。 由 于 关 
系数 据 模 型 简单 明了 ， 并 且 有 坚实 的 数学 理论 基础 ， 所 以 一 经 推出 就 受 
到 了 业界 的 高 度 重 视 。 关 系 模型 被 广泛 应 用 于 数据 处 理 和 数据 存储 ， 尤 
其 是 在 数据 库 领 域 ， 现 在 主流 的 数据 库 管 理 系统 几乎 都 是 以 关系 数据 模 
型 为 基础 实现 的 。 


2.1.1 关系 数据 模型 中 的 结构 


关系 数据 模型 基于 关系 这 一 数学 概念 。 在 本 小 节 中 ， 解 释 关 系数 据 
模型 中 的 术语 和 相关 概念 。 为 了 便于 说 明 ， 我 们 使 用 一 个 分 公司 -员工 
关系 的 例子 。 假 设 有 一 个 大 型 公司 在 全 国都 有 分 公司 ， 每 个 员工 属于 一 


个 分 公司 ， 一 个 分 公司 有 一 个 经 理 ， 分 公司 经 理 也 是 公司 员工 。 分 公 








司 -员工 关系 如 图 2-1 所 示 。 
































分 公司 表 员工 表 
分 公司 编号 人 这 Characters -O OS mL" 《pi> Characters 
地 址 Variable characters 姓名 Variable characters 
城市 Variable characters 性 别 Characters 
省 份 Variable characters we: o 职位 类 别 Variable characters 
邮编 Characters in ”| 出 生日 期 Date 
分 公司 经 理 «fi» Characters 所 属 分 公司 «fi» Characters 











图 2-1 分 公司 -员工 关系 
1. 关系 


由 行 和 列 构成 的 二 维 结构 ， 对 应 关系 数据 库 中 的 表 ， 如 示例 中 的 分 
公司 表 和 员工 表 。 注 意 ， 这 种 认识 只 是 我 们 从 过 辑 上 看 待 关系 模型 的 方 
式 ， 并 不 应 用 于 表 在 磁盘 上 的 物理 结构 。 表 的 物理 存储 结构 可 以 是 堆 文 
件 、 索 引文 件 或 哈 希 文件 。 堆 文件 是 一 个 无 序 的 数据 集合 ， 索 引文 件 中 
表 数 据 的 物理 存储 顺序 和 逻辑 顺序 保持 一 致 ， 哈 希 文件 也 称 为 直接 存 取 
文件 ， 是 通过 一 个 预先 定义 好 的 哈 希 函数 确定 数据 的 物理 存储 位 置 。 


2. 属性 


由 属性 名 称 和 类 型 名 称 构成 的 顺序 对 ， 对 应 关系 数据 库 中 表 的 列 ， 
如 地 址 (Variable Characters) 是 公司 表 的 一 个 属性 。 属 性 值 是 属性 的 一 
个 特定 的 有 效 值 ， 可 以 是 简单 的 标量 值 ， 也 可 以 是 复合 数据 类 型 值 。 

在 关系 数据 模型 中 ， 我 们 把 关系 摘 述 为 表 ， 表 中 的 行 对 应 不 同 的 记 
录 ， 表 中 的 列 对 应 不 同 的 属性 。 属 性 可 以 以 任何 顺序 出 现 ， 而 关系 保持 
不 变 ， 也 就 是 说 ， 在 关系 理论 中 ， 表 中 的 列 是 没有 顺序 的 。 


3. 属性 域 
属性 的 取 值 范围 。 每 一 个 属性 都 有 一 个 预定 义 的 值 的 范围 。 属 性 域 


是 关系 模 型 的 一 个 重要 特征 ， 关 系 中 的 每 个 属性 都 与 一 个 域 相关 。 各 个 
属性 的 域 可 能 不 同 ， 也 可 能 相同 。 域 描述 了 属性 所 有 可 能 的 值 。 








域 的 概念 是 很 重要 的 ， 因 为 它 允 许 我 们 定义 属性 可 以 具有 的 值 的 意 
义 。 系 统 可 因此 获得 更 多 的 信息 ， 并 且 可 以 拒绝 不 合理 的 操作 。 在 我 们 
的 例子 中 ， 分 公司 编写 和 员工 编写 都 是 字符 串 ， 但 显然 具有 不 同 的 含 
义 ， 换 句 话说 ， 它 们 的 属性 域 是 不 同 的 。 表 2-1 列 出 了 分 公司 -员工 关系 
的 一 些 属性 域 。 

















表 2-1 分 公司 -员工 关系 的 一 些 属性 域 




















属性 属性 域 的 定义 含义 

分 公司 编号 字符 : 大 小 为 4， 范 围 为 B001-B999 设置 所 有 可 能 的 分 公司 编号 

字符 :大 小 为 100 设置 所 有 可 能 的 地 址 

员工 编号 字符 :大 小 为 5， 范围 为 S0001-S9999 设置 所 有 可 能 的 员工 编号 

职位 类 别 管理 、 技 术 、 销 售 、 运 营 、 产 品 之 一 设置 所 有 可 能 的 员工 职位 类 别 
4. 元 组 





关系 中 的 一 条 记录 ， 对 应 关系 数据 库 中 的 一 个 表 行 。 元 组 可 以 以 任 
何 顺 序 出 现 ， 而 关系 保持 不 变 ， 也 惑 是 说 ， 在 关系 理论 中 ， 表 中 的 行 是 
没有 顺序 的 。 


5. 关系 数据 库 
一 系列 规范 化 的 表 的 集合 。 这 里 的 规范 化 可 以 理解 为 表 结 构 的 正确 
性 。 本 节 后 面 会 详细 讨论 规范 化 问题 。 


以 上 介绍 了 关系 数据 模型 的 两 组 术语 :“ 关 系 、 属 性 、 元 
组 ”和 “ 表 、 列 、 行 "。 在 这 里 它们 的 含义 是 相同 的 ， 只 不 过 前 者 是 关系 
数据 模型 的 正式 术语 ， 而 后 者 是 常用 的 数据 库 术 语 。 其 他 可 能 会 过 到 的 
类 似 术 语 还 有 实体 〈 表 ) 、 记 录 〈 行 ) 、 字 段 〈 列 ) 等 。 


6. 关系 表 的 属性 
关系 表 有 如 下 属性 : 


每 个 表 都 有 唯一 的 名 称 。 

一 个 表 中 每 个 列 有 不 同 的 名 字 。 
一 个 列 的 值 来 自 于 相同 的 属性 域 。 
列 是 无 订 的 。 

行 是 无 序 的 。 


7. 关系 数据 模型 中 的 键 
(1) 超 键 


一 个 列 或 者 列 集 ， 唯 一 标识 表 中 的 一 条 记录 。 超 键 可 能 包含 用 于 唯 
一 标识 记录 所 不 必要 的 额外 的 列 ， 我 们 通常 只 对 仅 包 含 能 够 唯一 标识 记 
录 的 最 小 数量 的 列 感 兴趣 。 











(2) 候选 键 


仪 包含 唯一 标识 记录 所 必需 的 最 小 数量 列 的 超 键 。 表 的 候选 键 有 三 
个 属性 : 





e 唯一 性 : 在 每 条 记录 中 ， 候 选 键 的 值 唯一 标识 该 记录 。 
e 最 小 性 : 具有 唯一 性 属性 的 超 键 的 最 小 子 集 。 
e JEFE: 候选 键 的 值 不 允许 为 空 。 


在 我 们 的 例子 中 ， 分 公司 编号 古 候选 键 ， 如 果 每 个 分 公司 的 邮编 都 
不 同 ， 那 么 邮编 也 可 以 作为 分 公司 表 的 候选 键 。 一 个 表 中 允许 有 多 个 候 
选 键 。 


(3) 主键 





唯一 标识 表 中 记录 的 候选 键 。 主 键 是 唯一 、 非 空 的 。 没 有 被 选 做 主 


键 的 候选 键 称 为 备用 键 。 对 于 例子 中 的 分 公司 表 ， 分 公司 编写 是 主键 ， 
邮编 就 是 备用 键 ， 而 员工 表 的 主键 是 员工 编写 。 

主键 的 选择 在 关系 数据 模型 中 非常 重要 ， 很 多 性 能 问题 都 是 由 于 主 
键 选择 不 当 引 起 的 。 在 选择 主键 时 ， 我 们 可 以 参考 以 下 原则 : 





主键 要 尺 可 能 地 小 。 

主键 值 不 应 该 被 改变 。 主 键 会 被 其 他 表 所 引用 。 如 末 改 变 了 主键 
的 值 ， 所 有 引用 该 主键 的 值 都 需要 修改 ， 人 否则 引用 就 是 无 效 的 。 
主键 通常 使 用 数字 类 型 。 数 字 类 型 的 主键 要 比 其 他 数据 类 型 效率 
更 高 。 

主键 应 该 是 没有 业务 含义 的 ， 它 不 应 包含 实际 的 业务 信息 。 无 意 
义 的 数字 列 不 需要 修改 ， 因 此 是 主键 的 理想 选择 。 大 部 分 关系 型 
数据 库 文 持 的 目 增 属性 或 序列 对 象 更 适合 当 作 主 键 。 

虽然 主键 允许 由 多 列 组 成 ， 但 应 该 使 用 尽 可 能 少 的 列 ， 最 好 是 单 
列 。 











(4) 外 键 





个 表 中 的 一 个 列 或 多 个 列 的 集合 ， 这 些 列 匹 配 某 些 其 他 《也 可 以 
是 同一 个 ) 表 中 的 候选 键 。 注 意外 键 所 引用 的 不 一 定 是 主键 ,但 一 定 古 
候选 键 。 当 一 列 出 现在 两 张 表 中 的 时 候 ， 它 通常 代表 两 张 表 记录 之 间 的 
关系 。 如 例子 中 分 公司 表 的 分 公司 编写 和 员工 表 的 所 属 分 公司 。 它 们 的 
名 字 昌 然 不 同 ， 但 却 是 同一 含义 。 分 公司 表 的 分 公司 编写 是 主键 ,在 员 
工 表 里 所 属 分 公司 是 外 键 。 同 样 ， 因 为 公司 经 理 也 是 公司 员工 ， 所 以 它 
是 引用 员工 表 的 外 键 。 主 键 所 在 的 表 被 称 为 父 表 ， 外 键 所 在 的 表 被 称 为 
T. 


2.1.2 关系 完整 性 











上 一 小 节 讨 论 了 关系 数据 模型 的 结构 部 分 ， 本 小 节 讨 论 关 系 完整 性 
规则 。 关 系数 据 模 型 有 两 个 重要 的 完整 性 规则 : 实体 完整 性 和 参照 完整 
性 。 在 定义 这 些 术语 之 前 ， 先 要 理解 空 值 的 概念 。 





1. TIÄ (NULL) 





表示 一 个 列 的 值 目前 还 不 知道 或 者 对 于 当前 记录 来 说 不 可 用 。 空 值 
可 以 意味 着 未 知 ， 也 可 以 意味 着 茶 个 记录 没有 值 ， 或 者 只 是 意味 着 该 值 
还 没有 提供 。 空 值 是 处 理 不 完整 数据 或 异常 数据 的 一 种 方式 。 空 值 与 数 
字 零 或 者 空 字符 串 不 同 ， 堆 和 空 字 符 串 是 值 ， 但 空 值 代表 没有 值 。 因 
此 ， 至 值 应 该 与 其 他 值 区 别 对 待 。 空 值 具有 特殊 性 ， 当 它 参 与 逻辑 运算 
时 ， 结 果 取 决 于 真 值 表 。 每 种 数据 库 系统 对 空 值 参与 运算 的 规则 定义 也 
不 尽 相 同 。 表 2-2 到 表 2-4 分 别 是 Oracle 的 非 、 与 、 或 逻辑 运算 真 值 表 。 
































表 2-2 Oracle 逻辑 非 运算 














TRUE FALSE NULL 


NOT FALSE TRUE NULL 




















表 2-3 Oracle 逻辑 与 运算 


TRUE FALSE NULL 
TRUE TRUE FALSE NULL 





FALSE FALSE FALSE FALSE 


NULL FALSE 























表 2-4 _ Oracle 逻辑 或 运算 


[OR |Trnus FALSE NULL 





TRUE TRUE TRUE TRUE 
FALSE TRUE FALSE NULL 
NULL TRUE | NULL NULL 











在 我 们 的 例子 中 ， 如 果 一 个 分 公司 的 经 理 离职 了 ， 新 的 经 理 还 没有 
上 任 ， 此 时 公司 经 理 列 对 应 的 值 就 是 空 值 。 


2. 关系 完整 性 规则 
有 了 空 值 的 定义 ， 殊 可 以 定义 两 种 关系 完整 性 规则 了 。 


(1) 实体 完整 性 





在 一 个 基本 表 中 ， 主 键 列 的 取 值 不 能 为 空 。 基 本 表 指 的 是 命名 的 
表 ， 其 中 的 记录 物理 地 存储 在 数据 库 中 ， 与 之 对 应 的 是 视图 。 视 图 是 虚 
拟 的 表 ， 它 只 是 一 个 查询 语句 的 逻辑 定义 ， 其 中 并 没有 物理 存储 数据 。 

从 前 面 介绍 的 定义 可 知 ， 主 键 是 用 于 唯一 标识 记录 的 最 小 列 集合 。 
也 就 是 说 ， 主 键 的 任何 子 集 都 不 能 提供 记录 的 唯一 标识 。 空 值 代表 未 
知 ， 无 法 进行 比较 。 如 果 人 允许 空 值 作 为 主键 的 一 部 分 ， 就 意味 痢 并 不 是 
所 有 的 列 都 用 来 区 分 记录 ， 这 与 主键 的 定义 矛盾 ， 因 此 主键 必须 是 非 空 
的 。 例 如 ， 分 公司 编号 是 分 公司 表 的 主键 ， 在 录入 数据 的 时 候 ， 该 列 的 
值 不 能 为 空 。 

















(2) 参照 完整 性 





如 果 表 中 存在 外 键 ， 则 外 键 值 必须 与 主 表 中 的 某 些 记录 的 候选 键 值 
相同 ， 或 者 外 键 的 值 必须 全 部 为 空 。 在 图 2-1 中 ， 员 工 表 中 的 所 属 分 公 
司 是 外 键 。 该 列 的 值 要 么 是 分 公司 表 的 分 公司 编号 列 中 的 值 ， 要 么 是 空 
《如 新 员工 已 经 加 入 了 公司 ,但 还 没有 被 分 派 到 某 个 具体 的 分 公司 
bl 





3. 业务 规则 





定义 或 约束 组 织 的 某 些 方面 的 规则 。 业 务 规则 的 例子 包括 属性 域 和 
关系 完整 性 规则 。 属 性 域 用 于 约束 特定 列 能 够 取 的 值 。 有 些 数据 库 系 
统 ， 如 Oracle， 支 持 叫 做 check 的 约束 ， 也 用 于 定义 列 中 可 以 接受 的 值 ， 





但 这 种 约束 是 定义 在 属性 域 之 上 的 ， 比 属性 域 的 约束 性 更 强 。 例 如 ， 员 
工 表 的 性 别 列 就 可 以 加 上 check 约 束 ， 使 它 只 能 取 有 限 的 几 个 值 。 


4. 关系 数据 库 语言 


关系 语言 定义 了 人 允许 对 数据 进行 的 操作 ， 包 括 从 数据 库 中 更 新 或 检 
过 数据 所 用 的 操作 以 及 改变 数据 库 对 象 结构 的 操作 。 关 系数 据 库 的 主要 
语言 是 SQL 语言 。 

SQL 是 Structured Query Language 的 缩写 ， 意 为 结构 化 查询 语言 。 
SQL 已 经 被 国际 标准 化 组 织 〈ISO) 进行 了 标准 化 ， 使 它 成 为 正式 的 和 
事实 上 的 定义 和 操纵 关系 数据 库 的 标准 语言 。SQL 语 言 又 可 分 为 DDL、 
DML、DCL、TCL 四 类 。 





DDL 是 Data Definition Language 的 缩写 ， 意 为 数据 定义 语言 ， 用 于 
定义 数据 库 结 构 和 模式 。 上 典型 的 DDL 有 create、alter、drop、truncate、 


comment、rename 等 。 


DML 是 Data Manipulation Language 的 缩写 ， 意 为 数据 操纵 语言 ， 用 
于 检索 、 管 理 和 维护 数据 库 对 象 。 典 型 的 DML 有 select、insert、 
update、delete、merge、call、explain、lock 等 。 

DCL 是 Data Control Language 的 缩写 ， 意 为 数据 控制 语言 ， 用 于 授 
子 和 回收 数据 库 对 象 上 的 权限 。 典 型 的 DCL 有 grant 和 revoke。 

TCL 是 Transaction Control Language 的 缩写 ， 意 为 事务 控制 语言 ， 用 
于 管理 DML 对 数据 的 改变 。 它 允许 一 组 DML 语 句 联 合成 一 个 逻辑 事 
务 。 典 型 的 TCL 有 commit、rollback、savepoint、set transaction 等 。 


2.1.3 ”规范 化 


关系 数据 模型 的 规范 化 是 一 种 组 织 数据 的 技术 。 规 范 化 方法 对 表 进 
行 分 解 ， 以 消除 数据 元 余 ， 避 免 异 更新， 提高 数据 完整 性 。 


不 规范 化 市 来 的 问题 


没有 规范 化 ， 数 据 的 更 新 处 理 将 变 得 困难 ， 异 常 的 插入 、 修 改 、 删 
除数 据 的 操作 会 频繁 发 生 。 为 了 便于 理解 ， 来 看 下 面 的 例子 。 


假设 有 一 个 名 为 employee 的 员工 表 ， 它 有 九 个 属性 : id (员工 编 
5) . name (员工 姓名 ) ，mobile (电话 ) 、zip( 邮 编 )、 
province (WH) ~ city 〈 城 市 ) district (IX) 、deptrNo( 所 属 部 门 
编号 ) 、deptName《〈 上 所 属 部 门 名 称 ) ， 表 中 的 数据 如 表 2-5 所 示 。 





X2-5 非 规 范 化 的 员工 表 

















id Name Mobile zip province city district deptNo | deptName 

101 张 三 13910000001 | 100001 | 北京 北京 EEK DI 部 门 1 
13910000002 

101 张 三 13910000001 | 100001 京 京 海淀 区 
13910000002 

102 李 四 13910000003 | 200001 

103 EET 13910000004 | 510001 | 广东 省 广州 白云 区 D4 部 门 4 

103 ER 13910000004 | 510001 | 广东 省 广州 白云 区 D5 部 门 5 
































由 于 此 员工 表 是 非 规范 化 的 ， 我 们 将 面 对 如 下 的 问题 。 


修改 异常 : 上 表 中 张 三 有 两 条 记录 ， 因 为 他 隶属 两 个 部 门 。 如 果 我 
们 要 修改 张 三 的 地 址 ， 必 须 修 改 两 行 记录 。 假 如 一 个 部 门 得 到 了 张 三 的 
新 地 址 并 进行 了 更 新 ， 而 男 一 个 部 门 没有 ， 那 么 此 时 张 三 在 表 中 会 存在 
两 个 不 同 的 地 址 ， 导 致 了 数据 不 一 致 。 


新 增 异 常 : 假如 一 个 新 员工 加 入 公司 ， 他 正 处 于 入 职 培训 阶段 ， 还 
没有 被 正式 分 配 到 某 个 部 门 ， 如 果 deptNo 字 段 不 允许 为 空 ， 我 们 就 无 法 
癌 employee 表 中 新 增 该 员工 的 数据 。 

删除 异常 : 假设 公司 撤销 了 D3 这 个 部 门 ， 那 么 在 删除 deptNo 为 D3 
的 行 时 ， 会 将 李 四 的 信息 也 一 并 删除 。 因 为 他 只 隶属 于 D3 这 一 个 部 
[ae 




















为 了 克服 这 些 异 常 更 新 ， 我 们 需要 对 表 进 行规 范 化 设计 。 规 范 化 是 
通过 应 用 范式 规则 实现 的 。 最 常用 的 范式 有 第 一 范式 CNF) 、 第 二 范 
X (2NF) 、 第 三 范式 (3NF) 。 


(1) 第 一 范式 (NF) 


表 中 的 列 只 能 含有 原子 性 (不 可 再 分 的 值 。 


上 例 中 张 三 有 两 个 手机 号 存储 在 mobile 列 中 ， 违 反 了 1NF 规 则 。 为 
了 使 表 满足 INF， 数 据 应 该 修改 为 如 表 2-6 所 示 。 








表 2-6 ”满足 1NF 的 员工 表 





id name mobile zip province city district deptNo | deptName 
13910000001 | 100001 EIR | 海淀 区 部 门 1 
101 k= 13910000002 | 100001 EXT 海淀 区 部 门 1 
京 | 海淀 区 部 门 2 
13910000002 | 100001 海淀 区 部 门 2 
102 李 四 13910000003 | 200001 静安 区 部 门 3 
103 ER 13910000004 | 510001 JZK 部 门 4 
103 dg 13910000004 | 510001 AZK 部 门 5 
































(2) 第 二 范式 (2NF) 








第 二 范式 要 同时 满足 下 面 两 个 条 件 : 


。 满足 第 一 范式 。 

。 没有 部 分 依赖 。 

例如 ， 员 工 表 的 一 个 候选 键 是 {id，mobile，deptNo}， 而 deptName 
依赖 于 {deptNo}， 同 样 name 仅 依赖 于 {fid}j， 因 此 不 是 2NF 的 。 为 了 满足 
第 二 范式 的 条 件 ， 需 要 将 这 个 表 拆 分 成 employee、dept、 
employee_dept、employee_mobile 四 个 表 ， 如 表 2-7 至 表 2-10 所 示 。 


表 2-7 满足 2NF 的 员工 表 














北京 
à 





deptNo 
DI 
D2 
D3 
D4 
D5 


101 
102 
103 
103 


101 
102 
103 


(3) 第 三 范式 〈 





北京 海淀 区 

200001 上 海 上 海 静安 区 

510001 广东 省 广州 白云 区 
表 2-8 满足 2NE 的 部 门 表 








表 2-9 ”满足 2NF 的 员工 -部 门 表 





表 2-10 满足 2NE 的 员工 -电话 表 


13910000001 
13910000002 


13910000003 
13910000004 





3NF) 





第 三 范式 要 同时 满足 下 面 两 个 条 件 : 


。 满足 第 二 范式 。 
。 没有 传递 依赖 。 


例如 ， 员 工 表 的 province、city、district 依 赖 于 zip， 而 zip 依 赖 于 
{id}， 换 句 话说 ，province、city、district 传 递 依赖 于 {id}， 违 反 了 3NF 规 
则 。 为 了 满足 第 三 范式 的 条 件 ， 可 以 将 这 个 表 拆 分 成 employee 和 zip 两 个 
表 ， 如 表 2-11、 表 2-12 所 示 。 


表 2-11 满足 3NF 的 员工 表 











100001 京 海淀 区 





200001 静安 区 
510001 “RE "M 白云 区 








在 关系 数据 模型 设计 中 ， 一 般 需 要 满足 第 三 范式 的 要 求 。 如 果 一 个 
表 有 民 好 的 主 外 键 设计 ， 惑 应 该 是 满足 3NF 的 表 。 规 范 化 冲 来 的 好 处 是 
通过 减少 数据 元 余 提 高 更 新 数据 的 效率 ， 同 时 保证 数据 完整 性 。 然 而 ， 
我 们 在 实际 应 用 中 也 要 防止 过 度 规范 化 的 问题 。 规 范 化 程度 越 遍 ， 划 分 
的 表 就 越 多 ， 在 得 询 数据 时 越 有 可 能 使 用 表 连 接 操 作 。 而 如 采 连 接 的 表 
过 多 ， 会 影响 查询 的 性 能 。 关 键 的 问题 是 要 依据 业务 需求 ， 仔 细 权 衡 数 
所 查询 和 数据 更 新 的 和 关系， 制定 最 适合 的 规范 化 程度 。 还 有 一 点 需要 注 
意 的 是 ， 不 要 为 了 章 循 严格 的 规范 化 规则 而 修改 业务 需求 。 


2.1.4 ”关系 数据 模型 与 数据 仓库 


关系 数据 模型 可 以 提供 高 性 能 的 数据 更 新 操作 ， 能 很 好 地 满足 事务 
型 系统 的 需求 ， 这 点 毋庸 置疑 。 但 是 对 于 碍 询 与 分 析 密 集 型 的 数据 仓库 
系统 还 是 售 合 适 呢 ? 对 这 个 问题 的 争论 由 来 已 入 ， 基 本 可 以 分 为 mnmon 
和 Kimball 两 大 阵营 ，Inmon 阵 营 是 应 用 关系 数据 模型 构建 数据 仓库 的 文 























持 者 。 
Inmon 方 法 是 以 下 面 这 些 假设 的 成 芯 为 前 提 的 。 


。 假设 数据 仓库 是 以 企业 为 中 心 的 ， 初 始 的 数据 能 够 为 所 有 部 门 所 
使 用 。 而 了 最 终 的 数据 分 析 能 力 是 在 部 门 级 别 体现 ， 需 要 使 用 数据 
集 市 对 数据 仓库 中 的 数据 做 进一步 处 理 ， 以 便 为 特定 的 部 门 定 制 
它们 。 
数据 仓库 中 的 数据 不 违反 组 织 制定 的 任何 业务 规则 。 
必须 尽 可 能 快 地 把 新 数据 装载 进 数 据 仓库 ， 这 意味 着 需要 简化 数 
所 装载 过 程 或 减少 数据 的 装载 量 。 
数据 仓库 的 建立 必须 从 一 开始 就 被 设计 成 文 持 多 种 BI 技术， 这 残 
要 求 数据 仓库 本 里 所 使 用 的 拉 术 越 通用 越 好 。 
假设 数据 仓库 的 需求 一 定 会 发 生变 化 。 它 必须 能 完美 地 适应 其 数 
据 和 数据 结构 的 变化 。 

基于 这 些 假 设 ， 使 用 关系 数据 模型 构建 数据 仓库 的 优势 和 必然 性 束 
比较 明显 了 。 


1. JEJUAR TE 


为 适应 数据 仓库 有 限 的 装载 周期 和 海量 数据 ， 数 据 仓库 数据 模型 应 
该 包含 最 少量 的 数据 元 余 。 元 余 越 少 ， 需 要 装载 的 数据 量 就 越 少 ， 装 载 
过 程 就 越 快 。 男 外 ， 数 据 仓 库 的 数据 源 一 般 是 事务 型 系统 ， 这 些 系统 通 
常 是 规范 化 设计 的 。 如 果 数 据 仓库 使 用 相同 的 数据 模型 ， 意 味 厦 数据 转 
换 的 复杂 性 可 能 会 降低 ， 同 样 可 以 加 快 数据 装载 速度 。 








2. 稳定 性 


由 于 数据 仓库 的 需求 会 不 断 变化 ， 我 们 需要 以 一 种 迭代 的 方式 建立 
数据 人 仓库。 众所周知， 组 织 中 最 经 常 变化 的 是 它 的 处 理 过 程 、 应 用 和 技 


术 ， 如 果 依 赖 于 这 三 个 因 系 中 的 任何 一 个 建立 数据 模型 ， 当 它们 发 生 改 
变 时 ， 肯 定 要 对 数据 模型 进行 彻 展 修改 。 为 了 避免 这 个 问题 ， 关 系数 据 
模型 的 通用 性 正 是 用 武之 地 。 为 一 方面 ， 由 于 变化 不 可 避免 ， 数 据 仓 库 
模型 应 该 能 比较 容易 地 将 新 的 变化 合并 进来 ， 而 不 必 重 新 设计 已 有 的 元 
素 和 已 经 实现 的 实体 。 





3. 一 致 性 





数据 仓库 模型 最 本 质 的 特点 是 保证 作为 组 织 最 重要 资源 的 数据 的 一 
致 性 ， 而 确保 数据 一 致 性 正 是 关系 数据 模型 的 特点 之 一 。 


4. 灵活 性 


数据 仓库 最 重要 的 一 个 用 途 是 作为 坚实 的 、 可 靠 的 、 一 致 的 数据 基 
础 为 后 续 的 报表 系统 、 数 据 分 析 、 数 据 挖掘 或 BI 系统 服务 。 数 据 模 型 还 
必须 文 持 为 组 织 建 立 的 业务 规则 。 这 就 意味 着 数据 模型 必须 比 简单 的 平 
面 文件 功能 更 强 。 为 此 关系 数据 模型 也 是 最 佳 选择 之 一 。 

关系 数据 模型 已 被 证 明 是 可 靠 的 、 简 单 的 数据 建 模 方 法 。 应 用 其 规 
范 化 规则 ， 将 产生 一 个 稳定 的 、 一 致 的 数据 模型 。 该 模型 文 持 由 组 织 制 
定 的 政 集 和 约定 的 规则 ， 同 时 为 数据 集 市 分 析 数 据 提供 了 更 多 的 灵活 
性 ， 使 得 数据 库存 储 以 及 数据 装载 方面 也 是 最 有 效 的 。 


当然 ， 任 何 一 种 数据 模型 都 不 可 能 是 完美 无 瑕 的 。 关 系数 据 模型 的 
缺点 也 很 明显 ， 它 需要 额外 建立 数据 集 市 的 存储 区 ， 并 增加 相应 的 数据 
装载 过 程 。 另 外 ， 对 数据 仓库 的 使 用 强烈 依赖 于 对 SQL 语言 的 掌握 程 
Eo 








2.2 ”维度 数据 模型 


维度 数据 模型 简称 维度 模型 (Dimensional modeling DM) ， 是 一 
套 技术 和 概念 的 集合 ， 用 于 数据 仓库 设计 。 不 同 于 关系 数据 模型 ， 维 度 
模型 不 一 定 要 引入 关系 数据 库 。 在 逻辑 上 相同 的 维度 模型 ， 可 以 被 用 于 
多 种 物理 形式 ， 比 如 维度 数据 库 或 是 简单 的 平面 文件 。 根 据 数据 仓库 大 
师 Kimball 的 观点 ， 维 度 模 型 是 一 种 趋同 于 支持 最 终 用 户 对 数据 仓库 进 
行 查 询 的 设计 技术 ， 是 围绕 性 能 和 易 理 解 性 构建 的 。 尽 管 关 系 模型 对 于 
事务 处 理 系 统 表现 非常 出 色 ， 但 它 并 不 是 面向 最 终 用 户 的 。 


事实 和 维度 是 两 个 维度 模型 中 的 核心 概念 。 事 实 表示 对 业务 数据 的 
度量 ， 而 维度 是 观察 数据 的 角度 。 事 实 通 第 是 数字 类 型 的 ， 可 以 进行 聚 
合 和 计算 ， 而 维度 通常 是 一 组 层次 关系 或 描述 信息 ， 用 来 定义 事实 。 例 
如 ， 销 售 金额 是 一 个 事实 ， 而 销售 时 间 、 销 售 的 产品 、 购 买 的 顾客 、 商 
店 等 都 是 销售 事实 的 维度 。 维 度 模型 按照 业务 流程 领域 即 主题 域 建 立 ， 
例如 进货 、 销 售 、 库 存 、 配 送 等。 不 同 的 主题 域 可 能 共 至 茶 些 维度 ， 为 
了 提高 数据 操作 的 性 能 和 数据 一 致 性 ， 需 要 使 用 一 致 性 维度 ， 例 如 几 个 
主题 域 间 共 孚 维度 的 复制 。 术 语 “ 一 致 性 维度 ” 源 目 Kimball， 指 的 是 具有 
相同 属性 和 内 容 的 维度 。 


2.2.1 ”维度 数据 模型 建 模 过 程 


维度 模型 通 和 以 一 种 被 称 为 星 型 模式 的 方式 构建 。 所 谓 星 型 模式 ， 
就 是 以 一 个 事实 表 为 中 心 ， 周 围 环绕 着 多 个 维度 表 。 还 有 一 种 模式 叫做 
雪花 模式 ， 是 对 维度 做 进一步 规范 化 后 形成 的 。 本 节 后 面 会 讨论 这 两 种 
模式 。 一 般 使 用 下 面 的 过 程 构建 维度 模型 : 
































。 选 择业 务 流程 
。 声 明 粒 度 
。 确 认 维度 
。 确 认 事 实 


这 种 使 用 四 步 设计 法 建立 维度 模型 的 过 程 ， 有 助 于 保证 维度 模型 和 
数据 仓库 的 可 用 性 。 





1. 选择 业务 流程 


确认 哪些 业务 处 理 流程 是 数据 仓库 应 该 窗 盖 的 ， 是 维度 方法 的 基 
础 。 因 此 ， 建 模 的 第 一 个 步骤 是 描述 需要 建 模 的 业务 流程 。 例 如 ， 和 需要 
了 解 和 分 析 一 个 零售 店 的 销售 情况 ， 那 么 与 该 零售 店 销售 相关 的 所 有 业 
务 流 程 都 是 需要 关注 的 。 为 了 描述 业务 流程 ， 可 以 简单 地 使 用 纯 文 本 将 
相关 内 容 记 录 下 来 ， 或 者 使 用 “业务 流程 建 模 标 注 ”(BPMN) 方法 ， 也 
可 以 使 用 统一 建 模 语言 (UML) 或 其 他 类 似 的 方法 。 


2. 声明 粒度 


确定 了 业务 流程 后 ， 下 一 步 是 声明 维度 模型 的 粒度 。 这 里 的 粒度 用 
于 确定 事实 中 表示 的 是 什么 ， 例 如 ， 一 个 零售 店 的 顾客 在 购物 小 紧 上 的 
一 个 购买 条 目 。 在 选择 维度 和 事实 前 必须 声明 粒度 ， 因 为 每 个 候选 维度 
或 事实 必须 与 定义 的 粒度 保持 一 致 。 在 一 个 事实 所 对 应 的 所 有 维度 设计 
中 强制 实行 粒度 一 致 性 是 保证 数据 仓库 应 用 性 能 和 易 用 性 的 关键 。 从 给 
定 的 业务 流程 获取 数据 时 ， 原 始 粒 度 是 最 低级 别 的 粒度 。 建 议 从 原始 粕 
度数 据 开 始 设计 ， 因 为 原始 记录 能 够 满足 无 法 预期 的 用 户 碍 询 。 汇 总 后 
的 数据 粒度 对 优化 三 询 性 能 很 重要 ， 但 这 样 的 粒 撤 往往 不 能 满足 对 细 市 
数据 的 碍 询 需求 。 不 同 的 事实 可 以 有 不 同 的 粒度 ， 但 同一 事实 中 不 要 混 
用 多 种 不 同 的 粒度 。 维 度 模 型 建立 完成 之 后 ， 还 有 可 能 因为 获取 了 新 的 
言 轧 ， 而 回 到 这 步 修 改 粒 度 级 别 。 


3. 确认 维度 


设计 过 程 的 第 三 步 是 确认 模型 的 维度 。 维 度 的 粒度 必须 和 第 二 步 所 
声明 的 粒度 一 致 。 维 度 表 是 事实 表 的 基础 ， 也 说 明了 事实 表 的 数据 是 从 












































哪里 采集 来 的 。 典 型 的 维度 都 是 名 词 ， 如 日 期 、 商 店 、 库 存 等 。 维 度 表 
存储 了 茶 一 维度 的 所 有 相关 数据 ， 例 如 ， 日 期 维度 应 该 包括 年 、 季 度 、 
月 、 周 、 日 等 数据 。 


4. 确认 事实 


确认 维度 后 ， 下 一 步 也 是 维度 模型 四 步 设 计 法 的 最 后 一 步 ， 就 是 确 
认 事 实 。 这 一 步 识别 数字 化 的 度量 ， 构 成 事实 表 的 记录 。 它 是 和 系统 的 
业务 用 户 密 切 相 关 的 ， 因 为 用 户 正 古 通 过 对 事实 表 的 访问 获取 数据 仓库 
存储 的 数据 。 大 部 分 事实 表 的 度量 都 是 数字 类 型 的 ， 可 累加 ， 可 计算 ， 
MAR. Wm. S. 


2.2.2 ”维度 规范 化 


与 和 关系 模型 类 似 ， 维 度 也 可 以 进行 规范 化 。 对 维度 的 规范 化 《又 叫 
雪花 化 ) ， 可 以 去 除了 元 余 属 性 ， 是 对 非 规 范 化 维度 做 的 规范 化 处 理 ， 在 
下 面 介绍 雪花 模型 时 ， 会 看 到 维度 规范 化 的 例子 。 一 个 非 规范 化 维度 对 
应 一 个 维度 表 ， 规 范 化 后 ， 一 个 维度 会 对 应 多 个 维度 表 ， 维 度 个 严格 地 
以 子 维度 的 形式 连接 在 一 起 。 实 际 上 ， 在 很 多 情况 下 ， 维 度 规范 化 后 的 
结构 等 同 于 一 个 低 范 式 级 别 的 关系 型 结构 。 


设计 维度 数据 模型 时 ， 会 因为 如 下 原因 而 不 对 维度 做 规范 化 处 理 : 

















。 规范 化 会 增加 表 的 数量 ， 使 结构 更 复杂 。 

。 不 可 避免 的 多 表 连 接 ， 使 查询 更 复杂 。 

。 不 适合 使 用 位 图 索引 。 

查询 性 能 原因 。 分 析 型 查询 需要 聚合 计算 或 检索 很 多 维度 值 ， 此 
时 第 三 范式 的 数据 库 会 下 迪 性 能 问题 。 如 宋 需 要 的 仅仅 是 操作 型 
报表 ， 可 以 使 用 第 三 范式 ， 因 为 操作 型 系统 的 用 户 需 要 看 到 更 细 
节 的 数据 。 








正如 在 前 面 关系 模型 中 提 到 的 ， 对 于 是 否 应 该 规范 化 的 问题 存在 一 
些 争 论 。 总 体 来 次 ， 当 多 个 维度 共用 东 些 通用 的 属性 时 ， 做 规范 化 会 是 
有 益 的 。 例 如 ， 客 户 和 供应 商都 有 省 、 市 、 区 县 、 街 道 等 地 理 位 置 的 属 
性 ， 此 时 分 离 出 一 个 地 区 属性 就 比较 合适 。 


2.2.3 ”维度 数据 模型 的 特点 


(1) 易 理 解 。 相 对 于 规范 化 的 关系 模型 ， 维 度 模型 容易 理解 日 更 
直观 。 在 维度 模型 中 ， 信 息 按 业务 种 类 或 维度 进行 分 组 ， 这 会 提高 信息 
的 可 该 性 ， 也 方便 了 对 于 数据 含义 的 解释 。 简 化 的 模型 也 让 系统 以 更 为 
高 效 的 方式 访问 数据 库 。 关 系 模 型 中 ， 数 据 被 分 布 到 多 个 离散 的 实体 
中 ， 对 于 一 个 简单 的 业务 流程 ， 可 能 需要 很 多 表 联 合 在 一 起 才能 表示 。 

(2) 高 性 能 。 维 度 模 型 更 倾 问 于 非 规 范 化 ， 因 为 这 样 可 以 优化 得 
询 的 性 能 。 介 绍 关 系 模型 时 多 次 提 到 ， 规 范 化 的 实质 是 减少 数据 元 余 ， 
以 优化 事务 处 理 或 数据 更 新 的 性 能 。 这 里 用 一 个 具体 的 例子 进一步 说 明 
性 能 问题 。 如 图 2-2 所 示 ， 左 边 是 一 个 销售 订单 的 典型 的 规范 化 表示 。 
订单 (Order) 实体 描述 有 关 订 单 整 体 的 信息 ， 订 单 明细 (Order Line) 
实体 描述 有 关 订 单项 的 信息 ， 两 个 实体 都 包含 摘 述 其 订单 状态 的 信息 。 
右边 是 一 个 订单 状态 维 COrder Status Dimension) ， 该 维 描述 订单 和 订 
单 明 细 中 对 应 的 状态 编码 值 的 唯一 组 合 。 它 包括 在 规范 化 设计 的 订单 和 
订单 明细 实体 中 都 出 现 的 属性 。 当 销售 订单 事实 行 被 装载 时 ， 参 照 在 订 
单 状态 维 中 的 适合 的 状态 编码 的 组 合 设 置 它 的 外 键 。 
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图 2-2 销售 订单 规范 化 表 与 销售 订单 维度 表 











维度 设计 的 整体 观点 是 要 简化 和 加 速 查 询 。 假 设 有 100 万 订单 ， 每 
个 订单 有 10 条 明细 ， 订 单 状 态 和 订单 明细 状态 各 有 10 种 。 如 果 用 户 要 查 
询 某 种 状态 特性 的 订单 ， 按 3NF 模 型 ， 逻 辑 上 需要 关联 100 万 记录 与 
1000 万 记录 的 两 个 大 表 ， 然 后 过 滤 两 个 表 的 状态 值得 到 所 要 的 结果 。 男 
一 方面 ， 事 实 表 (图 中 并 没有 画 出 〉 按 最 细 数 据 粒 度 有 1000 万 记录 ， 
3NF 里 的 订单 表 属 性 在 事实 表 里 是 见 余 数据 ， 状 态 维度 有 100 条 数据 ， 
只 需要 关联 1000 万 记录 与 100 条 记录 的 两 个 表 ， 再 进行 状态 过 滤 即 可 。 


(3) 可 扩展 。 维 度 模 型 是 可 扩展 的 。 由 于 维度 模型 多 许 数 据 元 

余 ， 因 此 当 癌 一 个 维度 表 或 事实 表 中 添加 字段 时 ， 不 会 像 关 系 模型 那样 
产生 巳 大 的 影响 ， 带 来 的 结果 就 是 更 容易 容纳 不 可 预料 的 新 增 数据 。 这 
种 新 增 可 以 是 单纯 地 向 表 中 增加 新 的 数据 行 而 不 改变 表 结 构 ， 也 可 以 是 
在 现 有 表 上 增加 新 的 属性 。 基 于 数据 仓库 的 查询 和 应 用 不 需要 过 多 改变 
就 能 适应 表 结 构 的 变化 ， 老 的 查询 和 应 用 会 继续 工作 而 不 会 产生 错误 的 
结果 。 但 是 对 于 规范 化 的 关系 模型 ， 由 于 表 之 间 存 在 复杂 的 依赖 关系 ， 
改变 表 结 构 前 一 定 要 仔细 考虑 。 









































2.2.4” 星 型 模式 





星 型 模式 是 维度 模型 最 简单 的 形式 ， 也 是 数据 仓库 以 及 数据 集 市 开 


发 中 使 用 最 广泛 的 形式 。 星 型 模式 由 事实 表 和 维度 表 组 成 ， 一 个 星 型 模 
式 中 可 以 有 一 个 或 多 个 事实 表 ， 每 个 事实 表 引 用 任意 数量 的 维度 表 。 星 
型 模式 的 物理 模型 像 一 颗 星 星 的 形状 ， 中 心 是 一 个 事实 表 ， 围 经 在 事实 
表 周 围 的 维度 表 表 示 星 星 的 放 冉 状 分 支 ， 这 束 是 星 型 模式 这 个 名 字 的 由 
来 。 

星 型 模式 将 业务 流程 分 为 事实 和 维度 。 事 实 包含 业务 的 度量 ， 是 定 
量 的 数据 ， 如 销售 价格 、 销 售 数量 、 距 离 、 速 度 、 重 量 等 是 事实 。 维 度 
是 对 事实 数据 属性 的 描述 ， 如 日 期 、 产 品 、 客 户 、 地 理 位 置 等 是 维度 。 
一 个 含有 很 多 维度 表 的 星 型 模式 有 时 被 称 为 蝇 钠 模式， 显然 这 个 名 字 也 
征 因 其 形状 而 得 来 的 。 蛇 蛤 模式 的 维度 表 往 往 只 有 很 少 的 几 个 属性 ， 这 
样 可 以 简化 对 维度 表 的 维护 ， 但 碍 询 数 据 时 会 有 更 多 的 表 连 接 ， 严 重 时 
会 使 模型 难于 使 用 ， 因 此 在 设计 中 应 该 尽量 避免 星 蛤 模式 。 


1. 事实 表 


事实 表 记 录 了 特定 事件 的 数字 化 的 考量 ， 一 般 由 数字 值 和 指向 维度 
表 的 外 键 组 成 。 通 常会 把 事实 表 的 粒度 级 别 设计 得 比较 低 ， 使 得 事实 表 
可 以 记录 很 原始 的 操作 型 事件 ， 但 这 样 做 的 负面 影响 是 累加 大 量 记录 可 
能 会 更 耗 时 。 事 实 表 有 以 下 三 种 类 型 : 










































































e 事务 事实 表 。 记 录 特 定 事件 的 事实 ， 如 销售 。 
e 快照 事实 表 。 记 录 给 定时 间 点 的 事实 ， 如 月 底 账 户 余额 。 

e 累积 事实 表 。 记 录 给 定时 间 点 的 聚合 事实 ， 如 当月 的 总 的 销售 金 
额 。 一 般 需 要 给 事实 表 设 计 一 个 代理 键 作 为 每 行 记录 的 唯一 标 
识 。 代 理 键 是 由 系统 生成 的 主键 ， 它 不 是 应 用 数据 ， 没 有 业务 合 

对 用 户 来 说 是 透明 的 。 


2. 维度 表 
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维度 表 的 记录 数 通常 比 事实 表 少 ， 但 每 条 记录 包含 有 大 量 用 于 描述 
事实 数据 的 属性 字段 。 维 度 表 可 以 定义 各 种 各 样 的 特性 ， 以 下 是 几 种 最 
长 用 的 维度 表 : 





e 时 间 维 度 表 。 描 述 星 型 模式 中 记录 的 事件 所 发 生 的 时 间 ， 上 共有 所 
再 的 最 低级 别 的 时 间 粒 度 。 数 据 仓 库 是 随时 间 变 化 的 数据 集合 ， 
需要 记录 数据 的 历史 ， 因 此 每 个 数据 仓库 都 需要 一 个 时 间 维 度 

表 。 

地 理 维 度 表 。 描 述 位 置信 息 的 数据 ， 如 国家 、 省 份 、 城 市 、 区 

县 、 邮 编 等 。 








Jes p 
e 人 员 维度 表 。 描 述 人 员 相关 的 信息 ， 如 销售 人 员 、 市 场 人 员 、 开 
发 


e 范围 维度 表 。 描 述 分 段 数据 的 信息 ， 如 高 级 、 中 级 、 低 级 等 。 

通 肖 给 维度 表 设 计 一 个 单列 、 整 型 数字 类 型 的 代理 键 ， 映 射 业务 数 
扬中 的 主键 。 业 务 系统 中 的 主键 本 里 可 能 是 自然 键 ， 也 可 能 是 代理 键 。 
目 然 键 指 的 是 由 现实 世界 中 己 经 存在 的 属性 组 成 的 键 ， 如 里 份 证 号 束 是 
典型 的 目 然 键 。 


3. A 


星 型 模式 是 非 规范 化 的 ， 在 星 型 模式 的 设计 开发 过 程 中 ， 不 受 应 用 
于 事务 型 关系 数据 库 的 范式 规则 的 约束 。 星 型 模式 的 优点 如 下 : 








简化 查询 。 俘 询 数 据 时 ， 星 型 模式 的 连接 逻辑 比较 人 简单， 而 从 融 
度 规 范 化 的 事务 模型 查询 数据 时 ， 人 往往 需要 更 多 的 表 连 接 。 
简化 业务 报表 逻辑 。 与 高 度 规范 化 的 模式 相 比 ， 由 于 碍 询 更 简 
单 ， 因 此 星 型 模式 简化 了 普通 的 业务 报表 《如 每 月 报表 ) 逻辑 。 
获得 得 询 性 能 。 星 型 模式 可 以 提升 只 读 报表 类 应 用 的 性 能 。 





e 快速 聚合 。 





基于 星 型 模式 的 简单 查询 能 够 提高 聚合 操作 的 性 能 。 


e 便于 向 立方 体 提 供 数 据 。 星 型 模式 被 广泛 用 于 高 效 地 建立 OLAP 
立方 体 ， 几 乎 所 有 的 OLAP 系 统 都 提供 ROLAP 模 型 (关系 型 





OLAP) ， 它 可 以 直接 将 星 型 模式 中 的 数据 当 作 数据 源 ， 而 不 用 


单独 建立 立方 体 结构 。 


4. 缺点 





星 型 模式 的 主要 缺点 是 不 能 
保证 数据 完整 性 。 一 次 性 地 插入 
或 更 新 操作 可 能 会 造成 数据 姑 
常 ， 而 这 种 情况 在 规范 化 模型 中 
是 可 以 避免 的 。 星 型 模式 的 数据 
装载 ， 一 般 都 是 以 高 度 受 控 的 方 
式 ， 用 批 处 理 或 准 实时 过 程 执行 
的 ， 以 此 来 抵消 数据 保护 方面 的 
不 足 。 

星 型 模式 的 另 一 个 缺点 是 对 
于 分 析 需 求 来 说 不 够 灵活 。 它 更 
偏重 于 为 特定 目的 建造 数据 视 
图 ， 因 此 实际 上 很 难 进行 全 面 的 
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星 型 模式 的 销售 数据 








仓库 


数据 分 析 。 星 型 模式 不 能 自然 地 支持 业务 实体 的 多 对 多 关系 ， 需 要 在 维 
度 表 和 事实 表 之 间 建 立 额 外 的 桥接 表 。 





5. 示例 





假设 有 一 个 连锁 店 的 销售 数据 仓库 ， 记 录 销 售 相关 的 日 期 、 商 店 和 


产品 ， 其 星 型 模式 如 图 2-3 所 示 。 





Fact_Sales 是 唯一 的 事实 表 ,Dim Date. Dim Store 和 Dim Product 





是 三 个 维度 表 。 每 个 维度 表 的 Id 字段 是 它们 的 主键 。 事 实 表 的 Date_Id、 
Store Id、Product_Id 三 个 字段 构成 了 事实 表 的 联合 主键 ， 同 时 这 个 三 个 
字段 也 是 外 键 ， 分 别 引 用 对 应 的 三 个 维度 表 的 主键 。Units_Sold 是 事实 
表 的 唯一 一 个 非 主 键 列 ， 人 代表 销 售 量 ， 是 用 于 计算 和 分 析 的 上 度量 值 。 维 
度 表 的 非 主键 列表 示 维 度 的 附加 属性 。 下 面 的 查询 可 以 回答 2015 年 各 个 
城市 的 手机 销量 是 多 少 。 

select s.city as city, sum(f.units sold) 

from fact sales f 

inner join dim date d on (f.date id - d.id) 

inner join dim store s on (f.store id - s.id) 

inner join dim product p on (f.product id - p.id) 


where d.year - 2015 and p.product category - 'mobile' 
group by s.city; 


2.2.5 ”雪花 模式 








雪花 模式 是 一 种 多 维 模型 中 表 的 逻辑 布局 ， 其 实体 关系 图 有 类 似 于 
雪花 的 形状 ， 因 此 得 名 。 与 星 型 模式 相同 ， 雪 花 模 式 也 是 由 事实 表 和 维 
度 表 所 组 成 。 所 谓 的 “雪花 化 ?就 是 将 星 型 模式 中 的 维度 表 进 行规 范 化 处 
理 。 当 所 有 的 维度 表 完 成 规范 化 后 ， 就 形成 了 以 事实 表 为 中 心 的 雪花 型 
结构 ， 即 雪花 模式 。 将 维度 表 进 行规 范 化 的 具体 做 法 是 ， 把 低 基数 的 属 
性 从 维度 表 中 移 除 并 形成 单独 的 表 。 基 数 指 的 是 一 个 字段 中 不 同 值 的 个 
数 ， 如 主键 列 具 有 唯一 值 ， 所 以 有 最 高 的 基数 ， 而 像 性 别 这 样 的 列 基数 
就 很 低 。 

在 雪花 模式 中 ， 一 个 维度 被 规范 化 成 多 个 关联 的 表 ， 而 在 星 型 模式 
中 ， 每 个 维度 由 一 个 单一 的 维度 表 所 表示 。 一 个 规范 化 的 维度 对 应 一 组 
具有 层次 关系 的 维度 表 ， 而 事实 表 作为 雪花 模式 里 的 子 表 ， 存 在 具有 层 
次 关系 的 多 个 父 表 。 

星 型 模式 和 雪花 模式 都 是 建立 维度 数据 仓库 或 数据 集 市 的 常用 方 
式 ， 适 用 于 加 快 查 询 速度 比 高 效 维护 数据 的 重要 性 更 高 的 场景 。 这 些 模 
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Ho 
1. 数据 规范 化 与 存储 


规范 化 的 过 程 就 是 将 维度 表 中 重复 的 组 分 离 成 一 个 新 表 ， 以 减少 数 
据 见 余 的 过 程 。 正 因为 如 此 ， 规 范 化 不 可 避免 地 增加 了 表 的 数量 。 在 执 
行 查询 的 时 候 ， 不 得 不 连接 更 多 的 表 。 但 是 规范 化 减少 了 存储 数据 的 空 
间 需 求 ， 而 且 提 高 了 数据 更 新 的 效率 。 这 点 在 前 面 介绍 关系 模型 时 已 经 
进行 了 详细 的 讨论 。 

从 存储 空间 的 角度 看 ， 典 型 的 情况 是 维度 表 比 事实 表 小 很 多 。 这 就 
使 得 雪花 化 的 维度 表 相 对 于 星 型 模式 来 说 ， 在 存储 空间 上 的 优势 没 那么 
明显 了 。 举 例 来 说 ， 假 设 在 220 个 区 县 的 200 个 商场 ， 共 有 100 万 条 销售 
记录 。 星 型 模式 的 设计 会 产生 1,000,200 条 记录 ， 其 中 事实 表 1,000,000 条 
记录 ， 商 场 维度 表 有 200 条 记录 ， 每 个 区 县 信息 作为 商场 的 一 个 属性 ， 
显 式 地 出 现在 商场 维度 表 中 。 在 规范 化 的 雪花 模式 中 ， 会 建立 一 个 区 县 
维度 表 ， 访 表 有 220 条 记录 ， 商 场 表 引用 区 县 表 的 主键 ， 有 200 条 记录 ， 
事实 表 没 有 变化 ， 还 是 1,000,000 条 记录 ， 总 的 记录 数 是 
1,000,420 (1,000,000+200+220) 。 在 这 种 特殊 情况 〈 作 为 子 表 的 商场 记 
录 数 少 于 作为 父 表 的 区 县 记录 数 ) 下 ， 星 型 模式 所 需 的 空间 有 反而 比 雪花 
模式 要 少 。 如 果 商 场 有 10,000 个 ， 情 况 就 不 一 样 了 ， 星 型 模式 的 记录 数 
是 1,010,000， 雪 花 模 式 的 记录 数 是 1,010,220， 从 记录 数 上 看 ， 还 是 雪花 
模型 多 。 但 是 ， 星 型 模式 的 商场 表 中 会 有 10,000 个 元 余 的 区 县 属性 信 
息 ， 而 在 雪花 模式 中 ， 商 场 表 中 只 有 10,000 个 区 县 的 主键 ， 而 需要 存储 
的 区 县 属性 信息 只 有 220 个 ， 当 区 县 的 属性 很 多 时 ， 会 大 大 减少 数据 存 
储 占用 的 空间 。 


有 些 数 据 库 开发 者 采取 一 种 折 中 的 方式 ， 底 层 使 用 雪花 模型 ， 上 层 
用 表 连 接 建立 视图 模拟 星 型 模式 。 这 种 方法 既 通 过 对 维度 的 规范 化 节省 





















































了 存储 空间 ， 同 时 又 对 用 户 屏 蔽 了 查询 的 复杂 性 。 但 是 当 外 部 的 查询 条 
件 不 需要 连接 整个 维度 表 时 ， 这 种 方法 会 带 来 性 能 损失 。 


2. fri 
雪花 模式 是 和 星 型 模式 类 似 的 逻辑 模型 。 实 际 上 ， 星 型 模式 是 雪花 


模式 的 一 个 特例 〈 维 度 没 有 多 个 层级 ) 。 某 些 条 件 下 ， 雪 人 花 模 式 更 具 优 
A, 











。 一 些 OLAP 多 维 数据 库 建 模 工 具 专 为 雪花 模型 进行 了 优化 。 
。 规范 化 的 维度 属性 节省 存储 空间 。 


3. 缺点 








雪花 模 型 的 主要 缺点 是 维度 属性 规范 化 增加 了 碍 询 的 连接 操作 和 复 
杂 上 度 。 相 对 于 平面 化 的 单 表 维 度 ， 多 表 连 接 的 碍 询 性 能 会 有 所 下 降 。 但 
雪花 模型 的 得 询 性 能 问题 近年 来 随 着 数据 浏览 工具 的 不 断 优 化 而 得 到 绥 
解 。 

和 上 共有 更 高 规范 化 级 别 的 事务 型 模式 相 比 ， 雪 人 花 模 式 并 不 确保 数据 
完整 性 。 辐 雪花 模式 的 表 中 装载 数据 时 ， 一 定 要 有 严格 的 控制 和 管理 ， 
避免 数据 的 异 妆 插入 或 更 新 。 








4. 示例 





图 2-4 显 示 的 是 将 图 2-3 的 星 型 模式 规范 化 后 的 雪花 模式 。 日 期 维度 
分 解 成 季度 、 月 、 周 、 日 期 四 个 表 。 产 品 维度 分 解 成 产品 分 类 、 产 品 两 
个 表 。 由 商场 维度 分 解 出 一 个 地 区 表 。 











图 2-4 雪花 模式 的 销售 数据 仓库 


下 面 所 示 的 查询 语句 的 结果 等 价 于 前 面 星 型 模式 的 查询 ， 可 以 明显 
看 到 此 查询 比 星 型 模式 的 查询 有 更 多 的 表 连 接 。 








dim store s on 


f.store id - s.id 
inner join 


dim geography g on 


s.geography id - g.id 
inner join 


dim product p on 


f.product id - p.id 
inner join 


dim product category c on 


p.product category id - c.id 
where 


d.year 


= 2015 and 


c.product category - 'mobile' 
group by 


g.city; 


2.3 Data Vault 模 型 





Data ”Vault 是 一 种 数据 仓库 建 模 方法 ， 用 来 存储 来 自 多 个 操作 型 系 
统 的 完整 的 历史 数据 。Data ” Vault 方法 需要 跟踪 所 有 数据 的 来 源 ， 因 此 
其 中 每 个 数据 行 都 要 包含 数据 来 源 和 装载 时 间 属 性 ， 用 以 审计 和 跟踪 数 
据 值 所 对 应 的 源 系统 。Data Vanult 不 区 分 数据 在 业务 层面 的 正确 与 错 
误 ， 它 保留 操作 型 系统 的 所 有 时 间 的 所 有 数据 ， 闭 载 数据 时 不 做 数据 验 
证 、 清 洗 等 工作 ， 这 点 明显 有 别 于 其 他 数据 仓库 建 模 方 法 。Data Vault 
建 模 方法 显 式 地 将 结构 信息 和 属性 信息 分 离 ， 能 够 还 原 业 务 环境 的 变 
化 。Data Vault 允 许 并 行 数据 装载 ， 不 主要 重新 设计 束 可 以 实现 扩展 。 





2.3.1 Data Vault 模 型 简介 


Data Vault (DV) 模型 用 于 企业 级 的 数据 仓库 建 模 ， 是 Dan Linstedt 
在 20 世 纪 90 年 代 提 出 的 。 在 最 近 几 年 ，Data Vault 模 型 获得 了 很 多 关 


U 


YEs 
Dan Linstedt f Data Vault 模 型 定义 如 下 : 


Data Vanult 是 面 问 细节 的 ， 可 奶 踩 历史 的 ， 一 组 有 连接 关系 的 规范 
化 的 表 的 集合 。 这 些 表 可 以 支持 一 个 或 多 个 业务 功能 。 它 是 一 种 综合 
第 三 范式 GNF) 和 星 型 模型 优点 的 建 模 方 法 。 其 设计 理念 是 要 满足 企 
业 对 灵活 性 、 可 扩展 性 、 一 致 性 和 对 需求 的 适应 性 要 求 ， 是 一 种 专 为 企 
业 级 数据 仓库 量 身 定制 的 建 模 方 式 。 

从 上 面 的 定义 可 以 看 出 ，Data” Vault 既是 一 种 数据 建 模 的 方法 论 ， 
又 是 构建 企业 数据 仓库 的 一 种 具体 方法 。Data Vault 建 模 方法 论 里 不 仪 
定义 了 Data Vault 的 组 成 部 分 和 组 成 部 分 之 则 的 交互 方式 ， 还 包括 了 最 





佳 实践 来 指导 构建 企业 数据 仓库 。 例 如 ， 业 务 规则 应 该 在 数据 的 下 游 实 
现 ， 束 是 说 Data ”Vault 只 按照 业务 数据 的 原样 保存 数据 ， 不 做 任何 解 
释 、 过 滤 、 清 洗 、 转 换 。 即 使 从 不 同 数据 源 来 的 数据 是 自 相 矛盾 的 〈 例 
如 同一 个 客户 有 不 同 的 地 址 ) , Data ”Vault 模型 不 会 遵照 任何 业务 的 规 
则 ， 如 “以 系统 A 的 地 址 为 准 *"。Data Vault 模 型 会 保存 两 个 不 同 版 本 的 数 
据 ， 对 数据 的 解释 将 推迟 到 整个 架构 的 后 一 个 阶段 〈 数 据 集 市 ) 。 





2.3.2 Data Vault 模型 的 组 成 部 分 


Data Vault 模 型 有 中 心 表 (Hub) 、 链 接 表 (Link) 、 附 属 表 
(Satellite〉 三 个 主要 组 成 部 分 。 中 心 表 记录 业务 主键 ， 链 接 表 记录 业 
务 关 系 ， 附 属 表 记录 业务 描述 。 





1. POK 
中 心 表 用 来 保存 一 个 组 织 内 的 每 个 实体 的 业务 主键 ， 业 务 主 键 唯一 
标识 某 个 业务 实体 。 中 心 表 和 源 系 统 表 是 相互 独立 的 。 当 一 个 业务 主键 





被 用 在 多 个 系统 时 ， 它 在 Data _Vault 中 也 只 保留 一 份 ， 其 他 的 组 件 都 链 
接 到 这 一 个 业务 主键 上 。 这 就 意味 着 业务 数据 都 集成 到 了 一 起 。 表 2-13 
列 出 了 中 心 表 应 该 包含 的 所 有 的 列 。 











表 2-13 中心 表 的 属性 








属性 描述 

系统 生成 的 代理 键 ， 供 内 部 使 用 

业务 主键 唯一 标识 的 业务 单元 ， 用 于 已 知 业务 的 源 系统 
装载 时 间 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 戳 
数据 来 源 定义 了 数据 来 源 〈 例 如 源 系 统 或 表 ) 


2. 链接 表 
链接 表 是 中 心 表 之 间 的 链接 。 一 个 链接 表意 味 着 两 个 或 多 个 中 心 表 











之 间 有 关联 。 一 个 链接 表 通 党 是 一 个 外 键 ， 它 代表 者 一 种 业务 关系 。 表 
2-14 列 出 了 链接 表 的 所 有 字段 。 


表 2-14 链接 表 的 属性 














系统 生成 的 代理 键 ， 供 内 部 使 用 
外 键 {1…N} 引用 中 心 表 的 代理 键 
装载 时 间 | 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 改 
数据 来 源 定义 了 数据 来 源 〈 例 如 源 系 统 或 表 ) 



























frData Vault 里 ， 每 个 关系 都 以 多 对 多 方式 关联 ， 这 给 模型 这 来 了 
很 大 的 灵活 性 。 无 论 数据 在 源 系 统 中 是 什么 关系 ， 都 可 以 保存 在 Data 
Vault 78 rp, 


3. 附属 表 


附属 表 用 来 保存 中 心 表 和 链接 表 的 属性 ， 包 括 所 有 的 历史 变化 数 
据 。 一 个 附属 表 总 有 一 个 且 唯 一 一 个 外 键 引 用 到 中 心 表 或 链接 表 。 表 2- 
15 列 出 了 附属 表 的 所 有 字段 。 


表 2-15 ”附属 表 的 属性 
































属性 | 描述 

主键 系统 生成 的 代理 键 ， 供 内 部 使 用 

外 键 引用 中 心 表 或 链接 表 的 代理 刍 

装载 时 间 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 蕉 
失效 时 间 SHH A AL EIRATA 

数据 来 源 定义 了 数据 来 源 ( 例 如 源 系 统 或 表 ) 

属性 {1…N} 属性 自身 














在 Data ”Vault 模型 的 标准 定义 里 ， 附 属 表 的 主键 应 该 是 附属 表 里 参 
照 到 中 心 表 或 链接 表 的 外 键 字 段 和 闭 载 时 间 字 段 的 组 合 。 尽 管 这 个 定义 
征 正确 的 ， 但 从 技术 角度 考虑 ， 我 们 最 好 还 是 增加 一 个 代理 键 。 使 用 只 
有 一 列 的 代理 键 更 易 维 护 。 另 外 ， 对 外 键 列 和 装载 时 间 列 联合 建立 唯一 


索引 ， 也 是 一 个 好 习惯 。 


2.3.3 Data Vault 模 型 的 特点 





一 个 设计 良好 的 Data Vault 模 型 应 该 具有 以 下 特点 : 





。 所 有 数据 都 基于 时 间 来 存储 ， 即 使 数据 是 低 质 量 的 ， 也 不 能 在 
ETL 过 程 中 处 理 掉 。 
。 依赖 越 少 越 好 。 
。 和 源 系 统 越 独立 越 好 。 
。 设计 上 适合 变化 。 
。 源 系统 中 数据 的 变化 。 
。 在 不 改变 模型 的 情况 下 可 扩展 。 


e ETL 作 业 可 以 重复 执行 。 
e 数据 完全 可 追踪 。 





2.3.4 Data Vault 模 型 的 构建 





在 Data ”Vault 模型 中 ， 各 个 实体 有 着 严格 、 通 用 的 定义 与 准确 、 灵 
活 的 功能 描述 ， 这 不 但 使 得 Data Vault 模型 能 够 最 直观 、 最 一 般 地 反映 
数据 之 则 内 含 的 业务 规则 ， 同 时 也 为 构建 Data” Vault 模型 提供 了 一 致 而 
普通 的 方法 。 

Data Vault 模 型 的 建立 可 以 遵循 如 下 步骤 : 

1. 设计 中 心 表 

首先 要 确定 企业 数据 仓库 要 涵盖 的 业务 范围 ， 其 次 要 将 业务 范围 划 


分 为 奉 干 原子 业务 实体 ， 比 如 客 尸 、 产 品 等 ; 然后， 从 各 个 业务 实体 中 
抽象 出 能 够 唯一 标识 该 实体 的 业务 主键 ， 该 业务 主键 要 在 整个 业务 的 生 


命 周 期 内 不 会 发 生变 化 ; 最 后 ， 由 该 业务 主键 生成 中 心 表 。 
2. 设计 链接 表 


链接 表 体 现 了 中 心 表 之 间 的 业务 关联 。 设 计 和 链接 表 ， 首 先 要 熟悉 各 
个 中 心 表 代 表 的 业务 实体 之 间 的 业务 关系 ， 可 能 是 两 个 或 者 多 个 中 心 表 
之 间 的 关系 。 根 据 业 务 需求 ， 这 种 关系 可 以 是 1 对 1、1 对 多 ， 或 者 多 对 
多 的 。 


然后 ， 从 相互 之 间 有 业务 关系 的 中 心 表 中 ， 提 取出 代表 各 自 业 务实 
体 的 中 心 表 主 键 ， 这 些 主键 将 被 加 入 到 链接 表 中 ， 组 合 构成 该 链接 表 的 
主键 。 同 样 出 于 技术 的 原因 ， 需 要 增加 代理 键 。 


在 生成 链接 表 的 同时 ， 要 注意 如 果 中 心 表 之 间 有 业务 交易 数据 的 
话 ， 就 需要 在 链接 表 中 保存 交易 数据 ， 有 两 种 方法 ， 一 十 采用 加 权 链 接 
表 ， 二 是 给 链接 表 加 上 附属 表 来 处 理 交 易 数 据 。 


3. 设计 附属 表 


附属 表 包 含 了 各 个 业务 实体 与 业务 关联 的 详细 的 上 下 文 描 述 信息 。 
设计 附属 表 ， 背 先 要 收集 各 个 业务 实体 在 提取 业务 主键 后 的 其 他 信息 ， 
比如 客户 住址 、 产 品 价格 等 ， 由 于 同一 业务 实体 的 各 个 描述 信息 不 具有 
稳定 性 ， 会 经 第 发 生变 化 ， 所 以 ， 在 必要 的 时 候 ， 需 要 将 变化 频率 不 同 
的 信息 分 阳 开 来 ， 为 一 个 中 心 表 建立 儿 个 附属 表 ， 然 后 提取 出 该 中 心 表 
的 主键 ， 作 为 描述 该 中 心 表 的 附属 表 的 主键 。 

当 业 务实 体 之 间 存 在 交易 数据 的 时 候 ， 需 要 为 没有 加 权 的 链接 表 设 
计 附 属 表 ， 也 可 以 根据 交易 数据 的 不 同 变化 情况 设计 多 个 附属 表 。 


4. 设计 必要 的 PIT 表 


























Point 一 In 一 Time 表 是 由 附属 表 派 生 而 来 的 。 如 果 一 个 中 心 表 或 者 链 





接 表 设计 有 多 个 附属 表 的 话 ， 而 为 了 访问 数据 方便 ， 束 有 用 到 PIT 表 的 
可 能 。 

PIT 表 的 主键 也 是 由 其 所 归属 的 中 心 表 提 取 而 来 ， 该 中 心 表 有 几 个 
附属 表 ，PIT 表 就 至 少 应 该 有 几 个 字段 来 存放 各 个 附属 表 的 变化 对 比 时 
间 。 

建立 Data Vault 模 型 时 应 该 参照 如 下 的 原则 : 








(1) 关于 中 心 表 的 原则 


e 中 心 表 的 主键 不 能 够 直接 “ 伸 入 ”到 其 他 中 心 表 里 面 。 就 是 说 ， 不 
存在 父子 关系 的 中 心 表 。 各 个 中 心 表 之 间 的 关系 是 平等 的 ， 这 也 
正 是 Data Vault 模 型 灵活 性 与 扩展 性 之 所 在 。 

e 中心 表 之 间 必 须 通 过 链接 表 相 关联 ， 通 过 链接 表 可 以 连接 两 个 以 
上 的 中 心 表 。 

。 必须 至 少 有 两 个 中 心 表 才 能 产生 一 个 有 意义 的 链接 表 。 

e 中 心 表 的 主键 总 是 “ 伸 出 去 ”的 〈 到 链接 表 或 者 附属 表 ) 。 


(2) 关于 链接 表 的 原则 


e 链接 表 可 以 跟 其 他 链接 表 相 连 。 

。 中 心 表 和 链接 表 都 可 以 使 用 代理 键 。 

e 业务 主键 从 来 不 会 改变 ， 就 是 说 中 心 表 的 主键 也 即 链接 表 的 外 键 
不 会 改变 。 





(3) 关于 附属 表 的 原则 





。 附属 表 必 须 是 连接 到 中 心 表 或 者 链接 表 上 才 会 有 确定 的 含义 。 
。 附属 表 总 是 包含 装载 时 间 和 失效 时 间 ， 从 而 包含 历史 数据 ， 并 且 


没有 重复 的 数据 。 
e 由 于 数据 信息 的 类 型 或 者 变化 频率 快慢 的 又 别 ， 描 述 信 息 的 数据 
可 能 会 被 分 隔 到 多 个 附属 表 中 去 。 





2.3.5 Data Vault 模 型 实例 


下 面 用 一 个 销售 订单 的 例子 说 明 如 何 将 关系 模型 转换 为 Data Vault 
模型 ， 以 及 如 何 向 转换 后 的 Data Vault 模 型 装载 数据 。 关 系 模型 如 图 2-5 
所 示 ， 共 有 省 、 市 、 客 户 、 产 品类 型 、 产 品 、 订 单 、 订 单 明细 7 个 表 。 






















































































图 2-5 销售 订单 关系 模型 


1. 将 关系 模型 转换 为 Data Vault 模 型 


首先 按照 下 面 的 步骤 转换 中 心 表 。 


C1) 确定 中 心 实体 。 示 例 中 的 客户 、 产 品类 型 、 产 品 、 订 单 、 订 
单 明细 这 5 个 实体 是 订单 销售 业务 的 中 心 实 体 。 省 、 市 等 地 理 信息 表 是 
参考 数据 ， 不 能 算是 中 心 实体 ， 实 际 上 有 是 附属 表 。 


(2) 把 第 一 步 确定 的 中 心 实体 中 有 入 边 的 实体 转换 为 中 心 表 ， 因 
为 这 些 实体 被 别 的 实体 引用 。 把 客户 、 产 品类 型 、 产 品 、 订 单 转换 成 中 
心 表 。 

(3) 把 第 一 步 确定 的 中 心 实 体 中 没有 入 边 且 只 有 一 条 出 边 的 实体 
转换 为 中 心 表 。 该 示例 中 没有 这 样 的 表 。 

如 表 2-16 所 示 列 出 了 所 有 中 心 表 。 














表 2-16 销售 订单 中 心 表 


hub product catagory product catagory id 
mi a | customer o — id 














hub Ham. pei id 





n hbsdenohbe — 0 0 0 0 0 1] | sales order misse | 1 | order id 


每 个 中 心 表 只 有 代理 键 、 业 务 主键 、 闭 载 时 间 、 数 据 来 源 四 个 字 
段 。 在 这 个 示例 中 ， 业 务 主 键 束 是 关系 模型 中 表 的 主键 字段 。 


然后 按照 下 面 的 步骤 转换 链接 表 。 





D 把 示例 中 没有 入 边 且 有 两 条 或 两 条 以 上 出 边 的 实体 直接 转换 
成 链接 表 。 符 合 条 件 的 是 订单 明细 表 。 

(2) 把 示例 中 除 第 一 步 以 外 的 外 键 关 系 转换 成 链接 表 。 订 单 和 客 
户 之 间 建 立 链 接 表 ， 产 品 和 产品 类 型 之 间 建 立 链接 表 。 注 意 Data Vault 
模型 中 的 每 个 关系 都 是 多 对 多 关系 。 








如 表 2-17 所 示 列 出 了 所 有 链接 表 。 


表 2-17 销售 订单 链接 表 











链接 表 被 链接 的 中 心 表 
link order product hub sales order, hub product 
hub sales order. hub customer 





link product catagory hub product, hub product catagory 





链接 表 中 包含 有 代理 键 、 关 联 的 中 心 表 的 一 个 或 多 个 主键 、 装 载 时 
间 、 数 据 来 源 等 字段 。 


最 后 转换 附属 表 。 附 属 表 为 中 心 表 和 链接 表 补 充 属性 。 所 有 源 库 中 
用 到 的 表 的 非 键 属性 都 要 放 到 Data Vault 模 型 的 附属 表 中 。 


如 表 2-18 所 示 列 出 了 所 有 附属 表 。 








表 2-18 销售 订单 附属 表 


附属 表 所 描述 的 表 
sat product catagory hub product catagory 








hub product 
hub. sales order 
link order product 


附属 表 中 包含 有 代理 键 、 关 联 的 中 心 表 或 链接 表 的 主键 、 装 载 时 
间 、 失 效 时 间 、 数 据 来 源 、 关 联 的 中 心 表 或 链接 表 所 对 应 的 天 系 模型 表 
中 的 一 个 或 多 个 非 主键 属性 等 字段 。 


转换 后 的 Data Yault 模 型 如 图 2-6 所 示 。 





























































































































marchar it 
| sta es mercher (50) 


图 2-6 ”销售 订单 Data Vault 模 型 








2. 问 Data Vault 模 型 的 表 中 装载 数据 


现在 Data Vault 模型 的 中 心 表 、 链 接 表 、 附 属 表 都 已 经 建立 好 ， 需 
要 向 其 中 装载 数据 ， 数 据 的 来 源 是 关系 模型 中 的 表 。 假 设 Data Vault 的 
表 使 用 MySQL 数 据 库 建 立 ， 代 理 键 使 用 自 增 列 ， 闭 载 时 间 使 用 时 间 戳 
数据 类 型 ， 在 插入 数据 时 ， 这 两 列 不 用 显 式 赋值 ， 数 据 会 自动 维护 。 数 
据 来 源 字 段 简单 处 理 ， 就 填写 与 之 相关 的 表 名 。 附 属 表 的 失效 时 间 字 
段 ， 初 始 值 填写 一 个 很 大 的 默认 时 间 ， 这 里 插入 ‘2200-01-01’。 


使 用 以 下 的 SQL 代码 装载 hub_product 中 心 表 、1link_order_product 链 
接 表 、sat_order_product 附 属 表 ， 其 他 表 的 装载 语句 类 似 ， 这 里 从 上 略 。 


-- 装载 hub_product 中 心 表 


insert into 


hub product (product id,record source) 
select 


product id,'product' from 


product; 


-- 装载 Link_order_product 链 接 表 
insert into 


link order product( 
hub sales order id, 
hub product id, 
record source) 
select 


hub sales order id, 
hub product id, 
'hub sales order,hub product,sales order item' 
from 


hub sales order t1, 
hub product t2, 
sales order item t3 
where 


ti1.sales order id = t3.sales order id 
and 


t2.product id - t3.product id; 





-- 装载 sat_order_product 附 属 表 
insert into 


sat order product ( 
link order product id, 
load end dts, 
record source, 
unit price, 
quantity) 
select 


link order product id, 
'2200-01-01', 
'link order product,hub sales order,hub product,sales order item 
t4.unit price, 
t4.quantity 
from 


link order product t1, 
hub sales order t2, 
hub product t3, 
sales order item t4 
where 


ti.hub sales order id = t2.hub sales order id 
and 


ti.hub product id = t3.hub product id 
and 


t4.sales order id 
and 


t2.sales order id 


t4.product id = t3.product id; 


2.4 数据 集 市 





在 第 1 章 中 介绍 了 独立 数据 集 市 和 从 属 数据 集 市 两 种 架构 ， 本 节 继 
续 讨 论 数 据 集 市 的 概念 、 与 数据 仓库 的 区 别 、 数 据 集 市 的 设计 等 问题 。 


2.4.1 数据 集 市 的 概念 


数据 集 市 是 数据 仓库 的 一 种 简单 形式 ， 通 第 由 组 织 内 的 业务 部 门 目 
己 建 立 和 控制 。 一 个 数据 集 市 面 癌 单一 主题 域 ， 如 销售 、 财 务 、 市 场 
等 。 数 据 集 市 的 数据 源 可 以 是 操作 型 系统 〈 独 立 数据 集 市 ) ， 也 可 以 是 
企业 级 数据 仓库 〈 从 属 数据 集 市 ) 。 


2.4.2 ”数据 集 市 与 数据 仓库 的 区 别 


不 同 于 数据 集 市 ， 数 据 仓库 处 理 整 个 组 织 范 围 内 的 多 个 主题 域 ， 通 
常 是 由 组 织 内 的 核心 单位 ， 如 I 开 部 门 承建 ， 所 以 经 第 被 称 为 中 心 数 据 仓 
库 或 企业 数据 仓库 。 数 据 仓 库 需 要 集成 很 多 操作 型 源 系 统 中 的 数据 。 由 
于 数据 集 市 的 复杂 度 和 需要 处 理 的 数据 都 小 于 数据 仓库 ， 因 此 更 容易 建 
立 与 维护 。 表 2-19 总 结 了 数据 仓库 与 数据 集 市 的 主要 区 别 。 


表 2-19 ”数据 仓库 与 数据 集 市 的 主要 区 别 


对 比 项 数据 仓库 数据 集 市 
范围 sws | ridic 


多 个 主题 单一 主题 











遗留 系统 、 事 务 系统 、 外 部 数据 的 多 个 数据 源 | 数据 仓库 或 事务 系统 的 少量 数据 源 


数据 粒度 较 细 的 粒度 较 粗 的 粒度 
数据 结构 通常 是 规范 化 结构 (SNF) 星 型 模型 、 雪 花 模 型 、 或 两 者 混合 
历史 数据 全 部 历史 数据 部 分 历史 数据 


间 











2.4.3 ”数据 集 市 设计 


数据 集 市 主要 用 于 部 门 级 别 的 分 析 型 应 用 ， 数 据 大 都 是 经 过 了 汇总 
和 聚 合 操作 ， 粒 度 级 别 较 高 。 数 据 集 市 一 般 采 用 维度 模型 设计 方法 ， 数 
所 结构 使 用 星 型 模式 或 雪花 模式 。 


正如 前 面 所 介绍 的 ， 设 计 维 度 模 型 多 要 确定 维度 表 、 事 实 表 和 数据 
粒度 级 别 ， 下 一 步 是 使 用 主 外 键 定 义 事实 表 和 维度 表 之 间 的 关系 。 数 气 
集 市 中 的 主键 最 好 使 用 系统 生成 的 目 增 的 单列 数字 型 代理 键 。 模 型 建立 
好 之 后 ， 设 计 ETL 步 又 抽取 操作 型 源 系 统 的 数据 ， 经 过 数据 清洗 和 转 
换 ， 最 终 疼 载 进 数据 集 市 中 的 维度 表 和 事实 表 中 。 


2.5 数据 仓库 实施 步骤 











实施 一 个 数据 仓库 项 目的 主要 步骤 是 : 定义 项 目 范 围 、 收 集 并 确认 
业务 需求 和 技术 需求 、 逻 得 设 计 、 物 理 设计 、 从 源 系统 向 数据 仓库 装载 
数据 、 使 数据 可 以 被 访问 以 辅助 决策 、 管 理 和 维护 数据 仓库 。 


1. 定义 范围 


在 实施 数据 仓库 前 ， 需 要 制定 一 个 开发 计划 。 这 个 计划 的 关键 输入 
古人 信息 需求 和 数据 仓库 用 户 的 优先 级 。 当 这 些 信 息 被 定义 和 核准 后 ， 残 
可 以 制作 一 个 交付 物 列 表 ， 并 给 数据 仓库 开发 团队 分 配 相 应 的 任务 。 


首要 任务 是 定义 项 目的 范围 。 项 目 范围 定义 了 一 个 数据 仓库 项 目的 
边界 。 典 型 的 范围 定义 是 组 织 、 地 区 、 应 用 、 业 务 功 能 的 联合 表示 。 定 
义 范 围 时 通 第 需要 权衡 考虑 资源 “人员 、 系 统 、 预 算 等 ) 、 进 度 《〈 项 目 
的 时 间 和 里 程 碑 要 求 ) 、 功 能 〈 数 据 仓库 承 诡 达到 的 能 力 ) 三 方面 的 因 
素 。 定 义 好 清晰 明确 的 范围 ， 并 得 到 所 有 项 目 干系 人 的 一 致 认可 ， 对 项 
目的 成 功 是 非常 重要 的 。 项 目 范围 是 设 定 正 确 的 期 望 值 、 评 估 成 本 、 舍 














计 风 险 、 制 定 开 发 优先 级 的 依据 。 
2. 确定 需求 
数据 仓库 项 目的 需求 可 以 分 为 业务 需求 和 技术 需求 。 
(1) 定义 业务 需求 


建 并 数据 仓库 的 主要 目的 是 为 组 织 赋予 从 全 局 访问 数据 的 能 力 。 数 
据 的 细节 程度 必须 能 够 满足 用 户 执 行 分 析 的 需求 ， 并 且 数 据 应 该 被 表示 
为 用 户 能 够 理解 的 业务 术语 。 对 数据 仓库 中 数据 的 分 析 将 辅助 业务 决 
策 ， 因 此 ， 作 为 数据 仓库 的 设计 者 ， 应 该 清楚 业务 用 户 是 如 何 做 决策 
的 ， 在 决策 过 程 中 提出 了 哪些 问题 ， 以 及 哪些 数据 是 回答 这 些 问 题 所 需 
要 的 。 与 业务 人 员 进 行 面对面 的 沟通 ， 是 理解 业务 流程 的 好 方式 。 沟 通 
的 结果 是 使 数据 仓库 的 业务 需求 更 加 明确 。 在 为 数据 仓库 收集 需求 的 过 
程 中 ， 还 要 考虑 设计 要 能 适应 需求 的 变化 。 





(2) 定义 技术 需求 


数据 仓库 的 数据 来 源 是 操作 型 系统 ， 这 些 系统 日 复 一 日 地 处 理 着 各 
种 事务 活动 。 操 作 型 系统 大 都 是 联机 事务 处 理 系统 。 数 据 仓 库 会 从 多 个 
操作 型 源 系 统 抽取 数据 。 但 是 ， 一 般 不 能 将 操作 型 系统 里 的 数据 直接 迁 
移 到 数据 仓库 ， 而 是 需要 一 个 中 间 处 理 过 程 ， 这 就 是 所 谓 的 ETL 过 程 。 
需要 知道 如 何 清理 操作 型 数据 ， 如 何 移 除 垃圾 数据 ， 如 何 将 来 自 多 个 源 
系统 的 相同 数据 整合 在 一 起 。 为 外 ， 还 要 确认 数据 的 更 新 频率 。 例 如 ， 
如 果 需 要 进行 长 期 的 或 大 范围 的 数据 分 析 ， 可 能 就 不 需要 每 天 装载 数 
据 ， 而 是 每 周 或 每 月 装载 一 次 。 注 意 ， 更 新 频率 并 不 决定 数据 的 细节 程 
度 ， 每 周 汇 总 的 数据 有 可 能 每 月 装载 (当然 这 种 把 数据 转换 和 数据 小 载 
分 开 调 度 的 做 法 并 不 第 见 ) 。 在 数据 仓库 设计 的 初始 阶段 ， 需 要 确定 数 











据 源 有 哪些 、 数 据 需 要 做 哪些 转换 以 及 数据 的 更 新 频率 是 什么 。 

3. 逻辑 设计 

定义 了 项 目的 范围 和 需求 ， 就 有 了 一 个 基本 的 概念 设计 。 下 面 就 要 
进入 数据 仓库 的 逻辑 设计 阶段 。 逻 辑 设计 过 程 中 ， 需 要 定义 特定 数据 的 
具体 内 容 ， 数 据 之 间 的 关系 ， 文 持 数据 仓库 的 系统 环境 等 ， 本 质 是 发 现 
逻辑 对 象 之 间 的 关系 。 





(1) 建立 需要 的 数据 列表 





细 化 业务 用 户 的 需求 以 形成 数据 元 系列 表 。 很 多 情况 下 ， 为 了 得 到 
所 需 的 全 部 数据 ， 需 要 适当 扩展 用 户 需 求 或 者 预测 未 来 的 需要 ， 一 般 从 
主题 域 涉及 的 业务 因素 入 手 。 例 如 ， 销 售 主题 域 的 业务 因素 可 能 是 客 
户 、 地 区 、 产 品 、 促 销 等 。 然 后 建立 每 个 业务 因素 的 元 素 列表 ， 依 据 也 
是 用 户 提 出 的 需求 。 最 后 通过 元 系列 表 ， 标 识 出 业务 因 系 之 间 的 联系 。 
这 些 工 作 完 成 后 ， 应 该 已 经 获得 了 如 下 的 信息 : 原始 的 或 计算 后 的 数据 
元 素 列 表 ; 数据 的 属性 ， 比 如 是 字符 型 的 还 是 数字 型 的 ;合理 的 数据 分 
组 ， 比 如 国家 、 省 市 、 区 县 等 分 成 一 组 ， 因 为 它们 都 是 地 区 元 素 ， 数 据 
之 间 的 关系 ， 比 如 国家 、 省 市 、 区 县 的 包含 关系 等 。 























(2) 识别 数据 源 








现在 已 经 有 了 需要 的 数据 列表 ， 下 面 的 问题 是 从 哪里 可 以 得 到 这 些 
数据 ， 以 及 要 得 到 这 些 数据 需要 多 大 的 成 本 。 需 要 把 上 一 步 建 并 的 数据 
列表 映射 到 操作 型 系统 上 。 应 该 从 最 大 最 复杂 的 源 系统 开始 ， 在 必要 时 
再 查找 其 他 源 系 统 。 数 据 的 映射 关系 可 能 是 直接 的 或 间接 的 ， 比 如 销售 
源 系 统 中 ， 商 品 的 单价 和 折扣 价 可 以 直接 获得 ， 而 折扣 百分比 就 需要 计 
算得 到 。 通 季 维 度 模 型 中 的 维度 胡可 以 直接 映射 到 操作 型 源 系统 ， 而 事 














实 表 的 度量 则 映射 到 源 数 据 在 特定 粒度 级 别 上 聚合 计算 后 的 结束 。 东 些 
数据 的 获得 需要 较 高 的 成 本 ， 例 如 ， 用 户 想 要 得 到 促销 相关 的 销售 数据 
就 不 那么 容易 ， 因 为 促销 期 的 定义 从 时 间 角 上 度 看 是 不 连续 的 。 








(3) 制作 实体 关系 图 


逻辑 设计 的 交付 物 是 实体 关系 图 Centity-relationship diagram， 简 称 
ERD) 和 对 它 的 说 明文 档 (数据 字典 ) 。 实 体 对 应 关系 数据 库 中 的 表 ， 
属性 对 应 关系 数据 库 中 的 列 。ERD 传 统 上 与 高 度 规 范 化 的 关系 模型 联系 
密切 ， 但 该 技术 在 维度 模型 中 也 被 广泛 使 用 。 在 维度 模型 的 ERD 中 ， 实 
体 由 事实 表 和 维度 表 组 成 ， 关 系 体现 为 在 事实 表 中 引用 维度 表 的 主键 。 
因此 先 要 确认 哪些 信息 属于 中 心事 实 表 ， 哪 些 信息 属于 相关 的 维度 表 。 
维度 模型 中 表 的 规范 化 级 别 通 常 低 于 关系 模型 中 的 表 。 








4. 物理 设计 


物理 设计 指 的 是 将 逻辑 设计 的 对 象 集 合 ， 转 化 为 一 个 物理 数据 库 ， 
包括 所 有 的 表 、 索 引 、 约 束 、 视 图 等 。 物 理 数据 库 结构 需要 优化 以 获得 
最 佳 的 性 能 。 每 种 数据 库 产 品 都 有 目 己 特别 的 优化 方法 ， 这 些 优化 对 得 
询 性 能 有 极 大 的 影响 。 比 较 通 用 的 数据 仓库 优化 方法 有 位 图 索引 和 表 分 
区 。 


第 1 章 中 的 “分 析 型 系统 的 数据 库 设 计 ” 已 经 提 到 过 位 图 索引 和 表 分 
区 。 位 图 索引 对 索引 列 的 每 个 不 同 值 建 立 一 个 位 图 。 和 普通 的 B 树 索引 
相 比 ， 位 图 索引 占用 的 空间 小 ， 创 建 速度 快 。 但 由 于 并 发 的 DML 操 作 
会 锁定 整个 位 图 段 的 大 量 数据 行 ， 所 以 位 图 索引 不 适用 于 频繁 更 新 的 事 
务 处 理 系统 。 而 数据 仓库 对 最 终 用 户 来 说 是 一 个 只 读 系 统 ， 其 中 东 些 维 
度 的 值 基 数 很 小 ， 这 样 的 场景 非常 适合 利用 位 图 索引 优化 得 询 。 遗 憾 的 
是 有 些 数据 库 管理 系统 如 MySQL， 还 没有 位 图 索引 功能 。 























大 部 分 数据 库 系统 都 可 以 对 表 进 行 分 区 。 表 分 区 是 将 一 个 大 表 按照 
一 定 的 规则 分 解 成 多 个 分 区 ， 每 个 表 分 区 可 以 定义 独立 的 物理 存储 参 
数 。 将 不 同 分 区 存储 到 不 同 的 磁盘 上 ， 查 询 表 中 数据 时 可 以 有 效 分 布 
IO 操作 ， 绥 解 系统 压力 。 分 区 还 有 一 个 很 有 用 的 特性 ， 叫 做 分 区 消 
除 。 查 询 数 据 的 时 候 ， 数 据 库 系 统 的 优化 器 可 以 通过 适当 的 查询 条 件 过 
滤 掉 一 些 分 区 ， 从 而 避免 扫描 所 有 数据 ， 提 高 查询 效率 ， 这 就 是 分 区 消 
除 。 

除了 性 能 优化 ， 数 据 仓库 系统 的 可 扩展 性 也 非常 重要 。 简 单 地 说 ， 
可 扩展 性 就 是 能 够 处 理 更 大 规模 业务 的 特性 。 从 技术 上 讲 ， 可 扩展 性 是 
一 种 通过 增加 资源 ， 使 服务 能 力 得 到 线性 扩展 的 能 力 。 比 方 说 ， 一 台 服 
务 器 在 满 负 和 荷 时 可 以 为 一 万 个 用 户 同 时 提供 服务 ， 当 用 户 数 增 加 到 两 万 
时 ， 只 需要 再 增加 一 台 服 务 器 ， 就 能 提供 相同 性 能 的 服务 。 成 功 的 数据 
仓库 会 吸引 越 来 越 多 的 用 户 访问 。 随 着 时 间 的 推移 ， 数 据 量 会 越 来 越 
大 ， 因 此 在 做 数据 仓库 物理 设计 时 ， 出 于 可 扩展 性 的 考虑 ， 应 该 把 对 便 
件 、 软 件 、 网 络 和 带宽 的 依赖 降 到 最 低 。 第 3 章 会 详细 讨论 数据 仓库 在 
Hadoop 上 的 扩展 性 问题 。 


5. 装载 数据 


这 个 步骤 实际 上 涉及 整个 ETL 过 程 。 需 要 执行 的 任务 包括 : 源 和 目 

















标 结 构 之 间 建 立 映 射 和 关系， 从 源 系 统 抽取 数据 ;对 数据 进行 清洗 和 转 
换 ， 将 数据 装载 进 数 据 仓库 ， 创 建 并 存储 元 数据 。 
6. 访问 数据 


访问 步 又 是 要 使 数据 仓库 的 数据 可 以 被 使 用 ， 使 用 的 方式 包括 : 数 
据 查 询 、 数 据 分 析 、 建 立 报表 图 表 、 数 据 发 布 等 。 根 据 采 用 的 数据 仓库 
架构 ， 可 能 会 引入 数据 集 市 的 创建 。 通 常 ， 最 终 用 户 会 使 用 图 形 化 的 前 
端 工具 向 数据 库 提 交 碍 询 ， 并 显示 查询 结果 。 访 问 步 骤 需 要 执行 以 下 任 














。 为 前 端 工 具 建 立 一 个 中 间 层 。 在 这 个 中 间 层 里 ， 把 数据 库 结构 和 
对 象 名 转化 成 业务 术语 ， 这 样 最 终 用 户 就 可 以 使 用 与 特定 功能 相 
关 的 业务 语言 同 数据 仓库 交互 。 

管理 和 维护 这 个 业务 接口 。 

建立 和 管理 数据 仓库 里 的 中 间 表 和 汇总 表 。 建 并 这些 表 完全 是 出 
于 性 能 原因 。 中 间 表 一 般 是 在 原始 表 上 添加 过 滤 条 件 获 得 的 数据 
集合 ， 汇 总 表 则 是 对 原始 表 进 行 聚合 操作 后 的 数据 集合 。 这 些 表 
中 的 记录 数 会 远 远 小 于 原始 表 ， 因 此 前 端 工具 在 这 些 表 上 的 查询 
会 执行 得 更 快 。 











7. 管理 维护 


这 个 步骤 涵 善 在 数据 仓库 整个 生命 周期 里 的 管理 和 维护 工作 。 这 步 
需要 执行 的 任务 包括 : 确保 对 数据 的 安全 访问 、 管 理 数据 增长 、 优 化 系 
统 以 获得 更 好 的 性 能 、 保 证 系统 的 可 用 性 和 可 恢复 性 等 。 


2.6 ”小结 


(1) 关系 模型 、 多 维 模型 和 Data Vault 模 型 是 三 种 常见 的 数据 仓库 
模型 。 


(20 数据 结构 、 完 整 性 约束 和 SQL 语 言 是 关系 模型 的 三 个 要 系 。 


(3) 规范 化 是 通过 应 用 范式 规则 实现 的 。 第 一 范式 (1NF)〉 要 求 
保持 数据 的 原子 性 、 第 二 范式 CONF) 消除 了 部 分 依赖 、 第 三 范式 
GNF) 消除 了 传递 依赖 。 关 系 模型 的 数据 仓库 一 般 要 求 满足 3NF。 


(4) 事实 、 维 度 、 粒 度 是 维度 模型 的 三 个 核心 概念 。 


(5) 维度 模型 的 四 步 设计 法 是 选择 业务 流程 、 声 明 粒 度 、 确 定 维 
E, MEY. 

(6) EWAN EIERNE ZEE US AIE RR. o8] A 
式 进一步 规范 化 ， 束 形成 了 雪花 模式 。 

(7) Data Vault rox (Hub) 、 链 接 表 (Link) 、 附 属 表 
(Satellite) 三 个 主要 组 成 部 分 。 中 心 表 记 录 业 务 主键 ， 链 接 表 记录 业 
务 关 系 ， 附 属 表 记录 业务 描述 。 


(8) Data Vault 不 区 分 数据 在 业务 层面 的 正确 与 错误 ， 它 保留 操作 
型 系统 的 所 有 时 间 的 所 有 数据 ， 装 载 数 据 时 不 做 数据 验证 、 清 洗 等 工 
作 。 

(95 数据 集 市 是 部 门 级 的 、 面 向 单一 主题 域 的 数据 仓库 。 

(100 数据 集 市 的 复杂 度 和 需要 处 理 的 数据 都 小 于 数据 仓库 ， 因 此 
更 容易 建立 与 维护 。 

(11) 实施 一 个 数据 仓库 项 目的 主要 步骤 是 : 定义 范围 、 确 认 需 
求 、 多 和 辑 设 计 、 物 理 设 计 、 闭 载 数据 、 访 问 数 据 、 管 理 维护 。 
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本 章 介 绍 Hadoop 及 其 生态 圈 中 的 组 件 ， 并 讨论 基于 Hadoop 构 建 数 
据 仓 库 的 必要 性 和 可 行 性 。 随 着 云 计 算 、 大 数据 等 名 词 的 流行 ， 涌 现 出 
一 大 批 相 关 的 技术 ， 其 中 Hadoop 是 较 早 出 现 的 一 种 分 布 式 架构 ， 得 到 了 
大 量 的 应 用 。 本 章 先 说 明 大 数据 和 Hadoop 的 基本 概念 ， 之 后 介绍 
HDFS、MapReduce、YARN 三 个 基本 的 Hadoop 组 件 。 除 了 基本 组 成 部 
分 ，Hadoop 生 态 圈 中 还 有 很 多 其 他 的 工具 组 件 ， 它 们 可 以 提供 创建 数据 
仓库 所 需 的 大 部 分 功能 ， 后 面 章 节 将 会 陆续 讲述 这 些 组 件 的 概念 和 功 
能 。 本 章 主 要 介绍 Spark 分 布 式 计算 框架 。 在 本 章 最 后 ， 讨 论 数 据 仓库 
与 分 布 式 计算 的 关系 ， 以 及 与 传统 数据 仓库 架构 所 对 应 的 Hadoop 工 具 。 

锅 望 读者 通过 阅读 本 章 的 内 容 ， 对 大 数据 、 分 布 式 计算 、Hadoop 及 
其 生态 圈 的 概念 有 一 个 基本 的 认识 ， 最 重要 的 是 理解 为 什么 要 使 用 
Hadoop 建 立 数据 仓库 。 


























3.1 大 数据 定义 


虽然 数据 仓库 技术 目 诞 生 之 日 起 的 二 十 多 年 里 一 直 被 用 来 处 理 大 数 
据 ， 但 “大 数据 ?这 个 名 词 却 是 近年 来 随 者 以 Hadoop 为 代表 的 一 系列 分 布 
式 计 算 框架 的 产生 发 展 才 流 行 起 来 。 

所 谓 大 数据 是 这 样 一 个 数据 集合 ， 它 的 数据 量 和 复杂 度 是 传统 的 数 
据 处 理应 用 无 法 应 对 的 。 大 数据 带 来 的 挑战 包括 数据 分 析 、 数 据 捕获 、 
数据 治理 、 搜 索 、 共 享 、 存 储 、 传 给、 可视化 、 人 查询、 更 新 和 信息 安全 
等 。“ 大 数据 ”这 个 术语 很 少 指 一 个 特定 大 小 的 数据 集 ， 它 通常 指 的 是 对 











很 大 的 数据 应 用 预测 分 析 、 用 户 行 为 分 析 或 其 他 的 数据 分 析 方 法 ， 从 数 
据 中 提炼 出 有 用 的 信息 ， 使 数据 产生 价值 ， 因 此 大 数据 更 像 是 一 套 处 理 
数据 的 方法 和 解决 方案 。 如 果 非 要 给 出 一 个 定量 的 标准 ， 大 数据 的 数据 
量 至 少 是 TB 级 别 的 ， 在 当前 这 个 信息 爆炸 的 时 代 ，PB 级 别 的 数据 量 已 
经 较为 常见 了 。 用 于 分 析 的 数据 量 越 大 ， 分 析 得 到 的 结果 束 越 精确 ， 基 
于 分 析 结 果 做 出 的 决策 也 就 越 有 说 服 力 ， 而 更 好 的 决策 能 够 降低 成 本 、 
规避 风险 、 提 高 业务 运营 的 效率 。 


dra rd eth ble f 通 软件 工具 的 处 理 能 
力 ， 换 句 话 说 ， 普 通 软件 没 办 法 在 一 个 可 以 容忍 的 时 间 范 围 内 完成 大 数 
据 的 捕获 和 处 理 。 大 数据 的 数据 量 一 直 在 飞速 增长 ，2012 年 的 时 候 ， 一 
he Be i a 
不 新 鲜 。 要 管理 如 此 之 大 的 数据 ， 一 系列 新 的 技术 和 方法 ， 它 们 必 
须 具有 新 的 数据 整合 形式 ， 从 各 种 各 样 大 量 的 复杂 数据 中 洞察 有 价 人 的 
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Auto 


在 2001 年 的 调查 报告 和 相关 文献 中 ，Gartner 的 分 析 员 Doug Laney 
三 个 维度 定义 了 数据 增长 带 来 的 机 过 与 挑战 。 这 三 个 维度 是 大 体积 〈( 数 
据 的 数量 ) 、 高 速度 (数据 输入 输出 的 速度 ) 和 多 样 性 (数据 的 种 类 和 
KRW) 。 直 到 现在 ， 仍 然 有 很 多 公司 使 用 这 个 模型 描述 大 数据 。2012 
年 ，Gartner 将 它 的 定义 修改 为 : 大 数据 是 大 容量 《Volume) 、 高 流速 
(Velocity) 、 多 样 化 〈Variety) 的 信息 资产 ， 它 需要 新 的 数据 处 理 形 
式 来 增强 决策 、 提 升 洞 察 力 、 优 化 处 理 过 程 。Gartner 关 于 大 数据 的 3V 
定义 一 直 被 广泛 使 用 。 与 Gartner 定 义 一 致 的 另外 一 种 表述 是 : 大 数据 是 
具有 大 体积 、 高 流速 、 多 样 化 特征 的 信息 资产 ， 需 要 特定 的 技术 和 分 析 
工具 将 其 转化 为 价值。 有 些 组 织 和 3V 的 基础 上 增加 了 一 个 新 的 
V-“Veracity”， 即 真实 性 来 描述 大 数据 。 现 在 普 过 认可 的 大 数据 是 具有 
4V， 即 Volume、Velocity、Variety、Veracity 特 征 的 数据 集合 ， 用 中 文 
简单 描述 就 是 大 、 快 、 多 、 真 。 



































生成 和 存储 的 数据 量 大 


随 着 拉 术 的 及 展 ， 人 们 收集 信息 的 能 力 越 来 越 强 ， 随 之 获取 的 数据 
也 呈 爆 炸 式 增 长 。 例 如 百度 每 日 处 理 的 数据 量 达 上 百 PB， 总 的 数据 
规模 已 经 到 达 EP 级 。 


1. Volume 





ER, 
里 
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数据 产生 和 处 理 速 度 快 


指 的 是 销售 、 交 易 、 计 量 等 人 们 关心 的 事件 发 生 的 频率 。 例 如 ， 
2015 年 双 十 一 当天 ， 文 付 宝 的 峰值 交易 数 为 每 秒 8.59 万 笔 。 


数据 源 和 数据 种 类 多 样 
现在 要 处 理 的 数据 源 包括 各 种 各 样 的 关系 数据 库 、NoSQL、 平 面 文 


件 、XML 文 件 、 机 器 日 志 、 图 片 、 音 视频 流 等 ， 而 且 每 天 都 会 产生 新 
的 数据 格式 和 数据 源 。 


2. Velocity 





3. Variety 


数据 的 真实 性 和 电 质 量 


诸如 软 硬 件 异常 、 应 用 系统 bug、 人 为 错误 等 都 会 使 数据 不 正确 。 
大 数据 处 理 中 应 该 分 析 并 过 滤 挥 这 些 有 偏差 的 、 伪 造 的、 异常 的 部 分 ， 
防止 脏 数据 损害 到 数据 分 析 结 果 的 准确 性 。 


4. Veracity 





3.2 Hadoop 人 简介 


Hadoop 是 较 早 用 来 处 理 大 数据 集合 的 分 布 式 存储 计算 基础 架构 ， 最 
早 由 Apache 软 件 基 金 会 开发 。 利 用 Hadoop， 用 户 可 以 在 不 了 解 分 布 式 
底层 细节 的 情况 下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 ， 执 行 高 速 
运算 和 存储 。 简 单 地 说 ，Hadoop 是 一 个 平台 ， 在 它 之 上 可 以 更 容易 地 开 
发 和 运行 处 理 大 规模 数据 的 软件 。 


Hadoop 软 件 库 是 一 个 计算 框架 ， 在 这 个 框架 下 ， 可 以 使 用 一 种 简单 
的 编程 模式 ， 通 过 多 台 计 算 机 构成 的 集群 ， 分 布 式 处 理 大 数据 集 。 
Hadoop 被 设计 成 可 扩展 的 ， 它 可 以 方便 地 从 单一 服务 器 扩展 到 数 干 台 机 
器 ， 每 台 机 器 进行 本 地 计算 和 存储 。 除 了 依赖 于 硬件 交付 的 高 可 用 性 ， 
软件 库 本 里 也 提供 数据 保护 ， 并 可 以 在 应 用 层 做 失败 处 理 ， 从 而 在 计算 
机 集群 的 顶层 提供 高 可 用 服务 。 


3.2.1 Hadoop 的 构成 
Hadoop 包 括 以 下 四 个 基本 模块 : 
e Hadoop 基 础 功能 库 : 支持 其 他 Hadoop 模 块 的 通用 程序 包 。 
e HDFS: 一 个 分 布 式 文件 系统 ， 能 够 以 高 吞吐 量 访问 应 用 的 数 
据 。 


e YARN: 一 个 作业 调度 和 资源 管理 框架 。 
e MapReduce: 一 个 基于 YARN 的 大 数据 并 行 处 理 程序 。 


除了 基本 模块 ，Hadoop 相 关 的 其 他 项 目 还 包括 : 





Ambari: 一 个 基于 Web 的 工具 ， 用 于 配置 、 管 理 和 监控 Hadoop 集 
群 。 文 持 HDFS、MapReduce、Hive、HCatalog、HBase、 
ZooKeeper、Oozie、Pig 和 Sqoop。Ambari 还 提供 显示 集群 健康 状 
况 的 仪表 盘 ， 如 热点 图 等 。Ambari 以 图 形 化 的 方式 查看 
MapReduce、Pig 和 Hive 应 用 程序 的 运行 情况 ， 因 此 可 以 通过 对 用 
户 友好 的 方式 诊断 应 用 的 性 能 问题 。 

Avro: 一 个 数据 序列 化 系统 。 

Cassandra: 一 个 可 扩展 的 无 单 点 故障 的 NoSQL 多 主 数据 库 。 
Chukwa: 一 个 用 于 大 型 分 布 式 系统 的 数据 采集 系统 。 

HBase: 一 个 可 扩展 的 分 布 式 数 据 库 ， 文 持 大 表 的 结构 化 数据 存 
储 。 





3.2.2 


3.2.3 


Hive: 一 个 数据 仓库 基础 架构 ， 提 供 数 据 汇 总 和 命令 行 的 即席 但 
询 功 能 。 

Mahout: 一 个 可 扩展 的 机 器 学 习 和 数据 挖掘 库 。 

Pig: 一 个 用 于 并 行 计算 的 高 级 数据 流 语 言 和 执行 框架 。 

Spark: 一 个 处 理 Hadoop 数 据 的 、 高 速 的 、 通 用 的 计算 引擎 。 
Spatk 提 供 了 一 种 简单 而 富 于 表达 能 力 的 编程 模式 ， 文 持 包括 
ETL、 机 器 学 习 、 数 据 流 处 理 、 图 像 计 算 等 多 种 应 用 。 

Tez: 一 个 完整 的 数据 流 编 程 框架 ， 在 YARN 之 上 建立 ， 提 供 强 
大 而 灵活 的 引擎 ， 执 行 任意 的 有 问 无 环 图 (DAG) 数据 处 理 任 
务 ， 既 文 持 批 处 理 又 支持 交互 式 的 用 户 场景 。Tez 已 经 被 Hive、 
Pig 等 Hadoop 生 态 圈 的 组 件 所 采用 ， 用 来 蔡 代 MapReduce 作 为 底 
层 执 行 引擎 。 

ZooKeeper: 一 个 用 于 分 布 式 应 用 的 高 性 能 协调 服务 。 








Hadoop 的 主要 特点 


扩容 能 力 : 能 可 靠 地 存储 和 处 理 PB 级 的 数据 。 

成 本 低 : 可 以 利用 廉价 通用 的 机 咒 组 成 的 服务 器 群 分 及、 处 理 数 
据 。 这 些 服务 器 群 总 计 可 达 数 干 个 节点 。 

高 效率 : 通过 分 发 数据 ，Hadoop 可 以 在 数据 所 在 的 节点 上 并 行 地 
处 理 它们 ， 这 使 得 处 理 非常 快速 。 

可 徘 性 : Hadoop 能 目 动 地 维护 数据 的 多 份 复制 ， 并 且 在 任务 失败 
后 能 自动 地 重新 部 署 计算 任务 。 





Hadoop 架 构 


Hadoop 集 群 架构 如 图 3-1 所 示 。 
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图 3-1 一 个 多 节点 Hadoop 集 群 架 构 


Hadoop 由 通用 包 、MapReduce (MapReduce/MR1 或 
YARN/MR2) 、HDFS 所 构成 。 通 用 包 提 供 文件 系统 和 操作 系统 级 别 的 
抽象 ， 包 含有 必需 的 Java Archive (JAR) 和 启动 Hadoop 和 集群 所 需 的 相关 
脚本 。 


为 了 有 效 调度 任务 ， 每 一 个 与 Hadoop 兼 容 的 文件 系统 都 应 该 具有 位 
置 感 知 的 功能 ， 简 单 说 位 置 感知 就 是 知道 工作 市 点 所 处 的 机 架 准 确 地 
说 是 网 络 交 换 机 〉 ， 因 此 也 叫 机 染 感 知 。Hadoop 应 用 能 够 使 用 这 一 信息 
执行 数据 所 在 市 把 上 的 代码 。 当 任务 失败 时 ， 在 相同 交换 机 上 的 市 点 之 
间 进 行 失败 切换 ， 这 会 节省 网 络 流量 。HDFS 使 用 机 染 感 知 在 多 个 交换 
机 的 市 点 间 复制 数据 ， 用 于 数据 元 余 。 这 种 方法 降低 了 机 染 挥 电 或 交换 
机 故障 产生 的 影响 ， 如 果 一 个 便 件 出 现 问 题 ， 数 据 仍 然 是 可 用 的 。 


一 个 小 规模 的 Hadoop 集 群 包含 一 个 主 节 点 和 多 个 从 节点 《工作 节 
点 ) 。 主 节点 上 的 进程 有 Job Tracker 〈 对 应 MR2 的 Resource 
Manager) 、NameNode， 依 据 配置 可 能 还 会 有 Task Tracker (对 应 MR2 
的 Node Manager) 和 DataNode。 从 节点 或 工作 节点 上 的 进程 有 DataNode 
和 TaskTracker， 尽 管 该 节点 可 能 只 是 一 个 数据 工作 节点 ， 或 者 只 是 一 个 
计算 工作 贡 点 。 这 种 架构 一 般 只 用 于 非 标准 的 小 型 应 用 。 


在 一 个 大 型 Hadoop 集 群 中 ，HDFS 节 点 通过 专用 的 NameNode 服 务 




















器 进行 管理 ，NameNode 服 务 妖 上 保存 有 文件 系统 的 索引 。Secondary 
NameNode 可 以 产生 NameNode 内 存 结构 的 快照 ， 因 此 可 以 防止 
NameNode 文 件 系统 损坏 造成 的 数据 丢失 。 类 似 地 ， 也 有 一 个 独立 的 
JobTracker 服 务 器 管理 节点 间 的 作业 调度 。 当 Hadoop MapReduce 运 行 在 
其 他 文件 系统 上 时 ，HDFS 的 NameNode、Secondary NameNode 和 
DataNode 会 被 与 特定 文件 系统 相关 的 等 价 结构 所 代 蔡 。 


Hadoop 需 要 JRE 1.6 及 其 以 上 版 本 。 标 准 的 集群 月 动 和 关闭 脚本 需 
要 在 集群 让 反 间 配置 ssh。 


3.3 Hadoop 基 本 组 件 


如 图 3-2 所 示 ，Hadoop 实 际 是 由 三 个 不 同 的 组 件 构成 : 


e HDFS: Hadoop 分 布 式 文件 系统 。 
e YARN: 一 个 资源 调度 框架 。 
e MapReduce: 一 个 分 布 式 处 理 框架 。 


程序 员 可 以 联合 使 用 这 三 个 组 件 构建 分 布 式 系统 。 





程序 员 使 用 处 
理 大 数据 集 
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HDFS 


HDFS 是 一 个 运行 在 通用 硬件 设备 之 上 的 分 布 式 文件 系统 。HDFS 是 
高 度 容错 的 ， 在 廉价 的 硬件 上 部 署 。HDFS 提 供 以 高 吞吐 量 访问 应 用 数 








据 的 能 


力 ， 非 常 适合 拥有 大 数据 集 的 应 用 。HDFS 放 宽 了 一 些 POSIX 的 
允许 对 文件 系统 数据 的 流 式 访问 。HDEFS 源 自 为 Apache Nutch 





Web 搜 索引 警 项目 建 立 的 框架 ， 是 Apache Hadoop 的 核心 项 目 。 


1. HDFS 的 目标 


硬件 容错 。HDFS 假 定 发 生硬 件 故障 是 一 个 常态 。 硬 件 损坏 的 情 
况 通常 比 预 想 出 现 的 更 加 频繁 。 一 个 HDFS 实 例 可 能 由 成 百 上 千 
的 服务 器 组 成 ， 每 个 机 器 上 存储 文件 系统 的 部 分 数据 。 事 实 上 一 
个 HDFS 包 含有 大 量 的 硬件 组 件 ， 而 在 如 此 之 多 的 硬件 中 ， 出 现 
问题 的 概率 就 非常 大 了 ， 也 可 以 说 ，HDEFS 中 总 会 有 部 分 组 件 处 
于 不 可 用 状态 。 因 此 ， 检 测 硬 件 错误 并 从 有 问题 的 硬件 快速 自动 
恢复 ， 就 成 为 HDFS 架 构 的 核心 目标 。 

流 式 数据 访问 。 运 行 在 HDFS 上 的 应 用 程序 需要 流 式 访 问 它 们 的 
数据 集 。 简 单 地 说 ， 流 式 访问 就 是 对 数据 边 读 取 边 处 理 ， 而 不 是 
将 整个 数据 集 读 取 完成 后 再 开始 处 理 。 这 与 运行 在 典型 普通 文件 
系统 上 的 程序 不 同 。HDFS 被 设计 成 更 适合 批 处 理 操作 ， 而 不 是 
让 用 户 交 互 式 地 使 用 。 它 强调 的 是 数据 访问 的 吞吐 量 而 不 是 低 延 
时 。POSIX 的 许多 硬性 要 求 并 不 适合 HDFS 上 的 应 用 程序 ， 因 为 
POSIX 的 某 些 关键 语义 影响 了 数据 吞吐 量 的 提升 。 
支持 大 数据 集 。 部 署 在 HDFS 上 的 应 用 要 处 理 很 大 的 数据 集 。 
HDFS 中 一 个 典型 文件 的 大 小 是 几 GB 到 儿 TB。HDFS 需 要 支持 大 
文件 ， 它 应 该 提供 很 大 的 数据 带宽 ， 能 够 在 单一 集群 中 扩展 几 百 























甚至 数 千 个 节点 ， 并 且 一 个 HDFS 实 例 应 该 能 够 支持 几 千 万 个 文 
TF, 

简单 的 一 致 性 模型 。HDFS 应 用 程序 访问 文件 是 一 次 写 多 次 读 模 
式 。 文 件 一 旦 被 创建 ， 对 该 文件 只 能 执行 退 加 或 彻底 清除 操作 。 
追加 的 内 容 只 能 号 到 文件 尾部 ， 而 文件 中 已 有 的 任何 内 容 都 不 能 
被 更 新 。 这 些 设 定 简 化 了 数据 一 致 性 问题 并 能 使 数据 访问 的 吞吐 
量 更 高 。MapReduce 或 Web 疏 虫 应 用 都 适合 于 这 种 模型 。 

移动 计算 而 不 是 移动 数据 。 一 个 应 用 的 计算 请 求 ， 在 它 所 操作 的 
数据 附近 执行 时 效率 会 更 高 ， 尤 其 是 在 数据 集 非 常 大 的 情况 下 更 
是 如 此 。 此 时 网 络 的 竞争 最 小 ， 系 统 整体 的 吞吐 量 会 得 到 提高 。 
通常 ， 将 计算 移动 到 临近 数据 的 位 置 ， 比 把 数据 移动 到 应 用 运行 
的 位 置 要 好 。HDFS 为 应 用 程序 提供 接口 ， 把 计算 移动 到 数据 所 
在 位 置 。 

便捷 访问 异 构 的 软 人 硬件 平台 。HDFS 能 够 很 容易 地 从 一 个 平台 迁 
移 到 另 一 个 ， 这 种 便利 性 使 HDFS 为 大 量 应 用 程序 所 采用 。 











2，HDEFS 架 构 


如 图 3-3 所 示 ，HDFS 是 主 / 从 架构 。 一 个 HDFS 集 群 有 一 个 
NameNode 进 程 ， 它 负责 管理 文件 系统 的 命名 空间 ， 这 里 所 说 的 命名 空 
间 是 指 一 种 层次 化 的 文件 组 织 形式 。NameNode 进 程控 制 被 客户 端 访问 
的 文件 ， 运 行 NameNode 进 程 的 节点 是 HDFS 的 主 节 点 。HDEFS 还 有 许多 
DataNode 进 程 ， 通 常 集群 中 除 NameNode 外 的 每 个 节点 都 运行 一 个 
DataNode 进 程 ， 它 管理 所 在 节点 上 的 存储 。 运 行 DataNode 进 程 的 节点 是 
HDFS 的 从 节点 ， 又 称 工作 节点 。HDFS 维 护 一 个 文件 系统 命名 空间 ， 并 
允许 将 用 户 数据 存储 到 文件 中 。 在 系统 内 部 ， 一 个 文件 被 分 成 多 个 数据 
块 ， 这 些 数据 块 实际 被 存储 到 DataNode 所 在 节点 上 。NameNode 不 仅 执 
行文 件 系统 命名 空间 上 的 打开 文件 、 关 闭 文 件 、 文 件 和 目录 重 命名 等 操 
作 ， 还 要 维护 数据 块 到 DataNode 节 点 的 映射 关系 。DataNode 不 仅 负责 啊 














应 文件 系统 客户 问 的 读 写 请 求 ， 还 依照 NameNode 下 达 的 指令 执行 数据 
块 的 创建 、 删 除 和 复制 等 操作 。 
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图 3-3 HDFS 架 构 


NameNode 和 DataNode 进 程 运行 在 通用 的 机 器 上 ， 这 些 机 器 通常 安 
装 Linux 操 作 系 统 。HDEFS 是 用 Java 语 言 开 发 的 ， 任 何 文 持 Java 的 机 器 都 
可 以 运行 NameNode 或 DataNode 进 程 。 使 用 平台 无 关 的 Java 语 言 ， 意 味 
着 HDFS 可 以 部 署 在 大 范围 的 主机 上 。 上 典型 的 部 署 是 一 台 专 用 服务 器 作 
为 主 节 点 ， 只 运行 NameNode 进 程 。 集 群 中 的 其 他 机 器 作为 从 节点 ， 
个 上 面 运行 一 个 DataNode 进 程 。 一 台 主 机 上 不 能 同时 运行 多 个 DataNode 
进程 。 

集群 中 NameNode 的 存在 极 大 地 简化 了 系统 架构 。NameNode 所 在 的 
主 节 点 是 HDFS 的 仲裁 人 和 所 有 元 数据 的 知识 库 。 这 样 的 系统 设计 下 ， 
用 户 数据 永远 不 会 存储 在 主 节 点 上 。 


HDFS 文 持 传 统 的 层次 形 文件 组 织 。 用 户 或 应 用 可 以 创建 目录 ， 也 
可 以 在 目录 中 存储 文件 。HDFS 命 名 空间 的 层次 结构 与 其 他 文件 系统 类 








似 ， 能 执行 创建 、 删 除 文件 ， 把 一 个 目录 中 的 文件 移动 到 另外 的 目录 
中 ， 修 改 文 件 名 称 的 操作 。HDFS 文 持 配置 用 户 配额 和 访问 权限 ， 但 不 
文 持 软 连接 和 人 硬 连 接 。 命 名 空间 及 其 属性 的 任何 变化 都 被 NameNode 所 
记录 。 应 用 可 以 指定 一 个 HDFS 文 件 的 副本 数 。 文 件 的 副本 数 被 称 为 该 
文件 的 复制 因子 ， 这 个 信息 被 NameNode 存 储 。 


3. 数据 复制 








HDFS 可 以 保证 集群 中 文件 存储 的 可 靠 性 。 它 把 文件 分 解 成 一 个 由 
数据 块 构成 的 序列 ， 每 个 数据 块 有 多 个 副本 ， 这 种 数据 元 余 对 容错 非常 
关键 。 当 一 个 数据 块 损坏 时 ， 不 会 造成 数据 丢失 。 数 据 块 的 大 小 和 复制 
因子 对 每 个 文件 都 是 可 配 的 。 


一 般 情 况 下 ，HDFS 中 一 个 文件 的 所 有 数据 块 ， 除 最 后 一 个 块 外 ， 
都 有 同样 的 大 小 。 但 是 ，HDFS 文 持 变 长 的 数据 块 ， 就 是 次 一 个 文件 有 
可 能 包含 两 种 大 小 的 数据 块 。 当 用 户 重 新 配置 了 文件 的 块 大 小 ， 然 后 问 
该 文件 中 退 加 数据 ， 这 时 HDFS 不 会 填充 文件 的 最 后 一 个 块 ， 而 是 用 新 
的 尺寸 创建 新 块 存储 妃 加 的 数据 ， 这 种 情况 下 文件 中 就 会 同时 存在 两 种 
大 小 的 块 。 


应 用 可 以 指定 一 个 文件 的 副本 数 ， 即 复制 因子 。 可 以 在 文件 创建 时 
指定 复制 因子 ， 这 个 复制 因子 的 配置 以 后 是 可 以 改变 的 。 除 了 妃 加 和 清 
除 操作 外 ，HDFS 中 的 文件 在 任何 时 候 都 是 严格 地 一 次 写 入 。 


NameNode 做 出 的 所 有 操作 ， 都 会 考虑 数据 块 的 复制 。 它 周期 性 地 
接收 集群 中 每 个 DataNode 发 出 的 心跳 和 块 报告 。 接 收 到 心跳 说 明 
DataNode 工 作 正 常 。 块 报告 包含 该 DataNode 节 点 上 所 有 数据 块 的 列表 。 

HDFS 使 用 所 谓 的 “机 架 感 知 ” 策 略 放 置 数据 块 副本 。 这 是 一 个 需要 
进行 大 量 实验 并 不 断 调 整 的 特性 ， 也 是 HDFS 与 其 他 分 布 式 文件 系统 的 
主要 区 别 。 机 架 感 知 的 目的 是 要 提升 数据 可 靠 性 、 可 用 性 和 网 络 带宽 的 














利用 率 。 当 前 HDFS 版 本 的 实现 只 是 实施 副本 放置 策略 的 第 一 步 ， 主 要 
是 为 了 验证 该 策略 在 生产 系统 上 的 有 效 性 ， 同 时 收集 更 多 的 行为 信息 ， 
以 供 继续 研究 和 测试 更 好 的 策略 。 

在 此 简单 说 一 下 可 靠 性 与 可 用 性 的 区 别 。 可 靠 性 是 指 系统 可 以 无 故 
障 地 持续 运行 ， 而 可 用 性 指 的 是 系统 在 任何 给 定 的 时 刻 都 能 工作 。 例 
如 ， 如 果 系 统 每 月 崩 尝 1 分 钟 ， 那 么 它 的 可 用 性 是 99.998%， 但 是 它 还 是 
非常 不 可 靠 的 。 与 之 相反 ， 如 果 一 个 系统 从 来 不 月 尝 ， 但 是 每 年 要 停机 
两 星期 ， 那 么 它 是 高 度 可 靠 的 ， 但 是 可 用 性 只 有 96%。 


一 个 大 型 HDFS 集 群 中 会 包含 很 多 计算 机 ， 这 些 机 器 分 布 于 多 个 机 
架 上 。 位 于 不 同 机 架 上 的 两 个 节点 通过 网 络 交 换 机 进行 通信 。 大 多 数 情 
况 下 ， 同 一 个 机 架 上 机 器 间 的 网 络 带 宽 会 蜗 于 不 同 机 架 上 的 机 器 。 

NameNode 通 过 Hadoop 机 架 感 知 策略 确定 每 个 DataNode 所 属 的 机 架 
ID。 一 种 简单 的 策略 是 在 每 个 机 架 上 放置 一 份 数 据 块 的 副本 ， 这 种 设计 
即使 在 整个 一 个 机 架 〈( 甚 至 多 个 机 架 〉 失效 的 情况 下 ， 也 能 防止 数据 丢 
失 。 访 策略 还 有 一 个 优点 是 ， 可 以 利用 多 个 机 架 的 带宽 读 取 数 据 。 将 数 
据 副 本 平均 分 布 于 集群 的 所 有 机 架 中 ， 当 集群 中 的 一 个 组 件 《〈 节 点 、 机 
ARSE) 失效 时 ， 重 新 负载 均衡 也 很 简单 。 但 是 很 显然 ， 写 入 数据 时 需要 
把 一 个 数据 块 传输 到 每 一 个 机 架 ， 这 样 做 的 写 入 成 本 太 高 了 。 


在 一 个 复制 因子 为 3 的 普通 场景 中 ，HDFS 把 数据 块 的 第 一 个 副本 放 
置 在 本 地 机 以 的 一 个 节 氮 上 ， 劝 一 个 副本 放置 在 本 地 机 架 的 另外 一 个 而 
扩 上 ， 最 后 一 个 副本 放置 在 为 外 一 个 机 架 的 节 上 皇上 。 这 样 只 写 了 两 个 机 
架 ， 市 省 了 一 个 机 染 的 写 入 流量 ， 提 升 了 写 入 性 能 。 该 朱 略 的 前 提 是 认 
可 这 样 一 种 假设 : 机 架 失 效 的 可 能 性 比 机 器 失效 的 可 能 性 小 得 多 。 因 此 
这 种 策略 并 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 然 而 它 却 减 少 了 读 取 数据 
的 整体 带宽 ， 因 为 此 时 只 能 利用 两 个 机 织 的 带 锅 而 不 是 三 个 。 使 用 这 种 
打上 略 ， 一 个 文件 的 副本 不 是 平均 分 布 于 所 有 机 架 ， 三 分 之 一 在 同一 个 市 
点 ， 三 分 之 二 在 同一 个 机 架 ， 剩 下 的 三 分 之 一 分 布 在 其 他 机 架 上 。 该 策 














略 提升 了 写 的 性 能 ， 同 时 没有 损害 数据 可 靠 性 或 读 的 性 能 。 

如 宁 复 制 因 子 大 于 3， 第 4 个 及 其 后 面 的 副本 被 随机 放置 ， 但 每 个 机 
架 的 副本 数量 要 低 于 上 限 值 ， 上 限 值 的 计算 公式 是 :; 〈“《〈 副 本 数 -1) / 
《机 架 数 十 2) 0 取 整 。 


由 于 NameNode 不 允许 一 个 DataNode 上 存在 一 个 数据 块 的 多 份 副 
本 ， 因 此 一 个 数据 块 的 最 大 副本 数 就 是 当时 DataNode 节 点 的 个 数 。 


在 HDFS 文 持 选择 存储 类 型 和 存储 策略 后 ，NameNode 实 施 策略 时 除 
了 依照 上 面 描述 的 机 架 感 知 外 ， 还 考虑 到 放置 副本 的 其 他 问题 。 
NameNode 首 先 按 机 架 感 知 策略 选择 存储 节点 ， 然 后 检查 该 候选 节点 是 
否 满足 文件 的 存储 需求 。 如 果 候 选 节 点 不 支持 文件 的 存储 类 型 ， 
NameNode 就 会 去 寻找 其 他 节点 。 如 果 在 第 一 条 查找 路 径 上 没有 找到 足 
够 的 节点 来 存放 副本 ， 那 么 NameNode 会 再 选择 第 二 条 路 径 继续 查找 可 
用 于 存储 该 文件 类 型 的 节点 。 当 前 默认 的 副本 放置 策略 就 是 这 样 工作 
的 。 


为 了 使 全 局 的 带宽 消耗 和 读 延 迟 降 到 最 小 ， 在 选择 副本 时 ，HDFS 
总 是 选择 距离 读 请 求 最 近 的 存储 节点 。 如 果 在 读 请 求 所 在 节点 的 同一 个 
机 架 上 有 需要 的 数据 副本 ， 则 HDEFS 尽 量 选择 它 来 满足 读 请 求 。 如 果 
HDFS 集 群 跨越 多 个 数据 中 心 ， 那 么 存储 在 本 地 数据 中 心 的 副本 会 优先 
于 远程 副本 被 选择 。 

当 Hadoop 的 NameNode 节 点 司 动 时 ， 会 进入 一 种 称 为 安全 模式 的 特 
殊 状 态 。NameNode 处 于 安全 模式 时 不 会 进行 数据 块 的 复制 操作 。 此 时 
NameNode 会 接收 来 自 DataNode 的 心跳 和 块 报告 消息 。 块 报告 中 包含 该 
DataNode 节 点 所 保存 的 数据 块 列表 ， 每 个 数据 块 有 一 个 特定 的 最 小 副本 
数 。NameNode 检 测 到 一 个 数据 块 达 到 了 最 小 副本 数 时 ， 束 认为 该 数据 
块 是 复制 安全 的 。 当 检测 到 的 复制 安全 的 数据 块 达到 一 定 比例 〈 由 
dfs.safemode.threshold.pct 参 数 指 定 ) 30 秒 后 ，NameNode 退 出 安全 模 
式 。 然 后 NameNode 会 确定 一 个 没有 达到 最 小 副本 条 件 的 数据 块 列表 ， 




















并 将 这 些 数 据 块 复制 到 其 他 DataNode 节 点 ， 直 至 达到 最 小 副本 数 。 
4. 文件 系统 元 数据 持久 化 





HDFS 命 名 空间 的 元 数据 由 NameNode 负 责 存 储 。NameNode 使 用 一 
个 叫做 EditLog 的 事务 日 志 持 久 化 记录 文件 系统 元 数据 的 每 次 变化 。 例 
如 ， 在 HDFS 中 创建 一 个 新 文件 ，NameNode 就 会 向 EditLog 中 插入 一 条 
记录 标识 这 个 操作 。 同 样 ， 改 变 文件 的 复制 因子 也 会 同 EditLog 中 插入 
一 条 记录 。NameNode 使 用 本 地 主机 上 的 一 个 操作 系统 文件 存储 
EditLog。 整 个 文件 系统 的 命名 空间 ， 包 括 数据 块 和 文件 的 映射 关系 、 
文件 系统 属性 等 ， 存 储 在 一 个 叫做 FsImage 的 文件 中 。FsImage 也 是 一 个 
NameNode 节 点 的 本 地 操作 系统 文件 。 


NameNode 在 内 存 中 保留 一 份 完整 的 文件 系统 命名 空间 映像， 其 中 
包括 文件 和 数据 块 的 映射 关系 。 局 动 或 者 达到 配置 的 靖 值 触发 了 检查 点 
时 ，NameNode 把 FsImage 和 EditLog 从 磁盘 读 取 到 内 存 ， 对 内 存 中 的 
FsImage 应 用 EditLog 里 的 事务 ， 并 将 新 版 本 的 FsImage 写 回 破 盘 ， 然 后 清 
除 老 的 EditLog 事 务 条 目 ， 因 为 它们 已 经 持久 化 到 FsImage 了 。 这 个 过 程 
叫做 检查 点 。 检 查 点 的 目的 是 确认 HDFS 有 一 个 文件 系统 元 数据 的 一 致 
性 视图 ， 这 是 通过 建立 一 个 文件 系统 元 数据 的 快照 并 保存 到 FsImage 实 
现 的 。 尺 管 可 以 高 效 读 取 FsImage， 但 把 每 次 FsImage 的 改变 直接 写 到 磁 
盘 的 效率 是 很 低 的 。 谷 代 做 法 是 将 每 次 的 变更 持久 化 到 Editlog 中 ， 在 检 
查 点 期 间 再 把 FsImage 刷 新 到 磁盘 。 检 查 点 有 两 种 触发 机 制 ， 按 以 秒 为 
单位 的 时 间 间 隔 (dfs.namenode.checkpoint.period) 触发 ， 或 者 达到 文件 
系统 累加 的 事务 值 (dfs.namenode.checkpoint.txzns) 时 和 触 发。 如果 两 个 参 
数 都 设置 ， 两 种 条 件 都 会 触发 检查 点 。 熟 悉数 据 库 的 读者 对 检查 点 这 一 
概念 一 定 不 会 陌生 ，NameNode 的 FsImage 和 EditLog， 其 作用 与 关系 数 
据 库 中 的 数据 文件 、 重 做 日 志文 件 非常 类 似 。 


DataNode 把 HDFS 文 件 里 的 数据 存储 到 本 地 文件 系统 ， 是 联系 本 地 




















文件 系统 和 HDFS 的 纽带 。DataNode 将 HDFS 的 每 个 数据 块 存 到 一 个 单独 
的 本 地 文件 中 ， 这 些 本 地 文件 并 不 都 在 同一 个 目录 中 。DataNode 会 根据 
实际 情况 决定 一 个 目录 中 的 文件 数 ， 并 在 适当 的 时 候 建 立 子 目录 。 本 地 
文件 系统 不 能 支持 在 一 个 目录 里 创建 太 多 的 文件 。DataNode 启 动 时 会 扫 
描 本 地 文件 系统 ， 生 成 一 个 该 节点 上 与 本 地 文件 对 应 的 所 有 HDFS 数 据 
块 的 列表 ， 并 把 列表 上 报 给 NameNode， 这 个 报告 就 是 前 面 所 说 的 块 报 
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5. HDFS 示 例 


如 图 3-4 所 示 ， 有 一 个 256MB 的 文件 ， 集 群 中 有 4 个 节点 ， 那 么 默认 
情况 下 ， 当 把 文件 上 传 到 集群 时 ， 系 统 会 自动 做 三 件 事情 : 





。 HDFS 会 将 此 文件 分 成 四 个 64MB 的 数据 块 。 
e 每 个 块 有 三 个 复制 。 
e 数据 块 被 分 散 到 集群 节点 中 ， 确 保 对 于 任意 数据 块 ， 没 有 两 个 块 


复制 在 相同 的 节点 上 。 
文件 自动 分 解 成 数据 块 
文件 
bn em 块 1 块 2 | 块 3 | 块 4 
mL 
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图 3-4 HDFS 示 例 


这 个 简单 的 数据 分 布 算法 是 Hadoop 成 功 的 关键 ， 它 显著 提高 了 
HDFS 和 集群 在 硬件 失效 时 的 可 用 性 ， 并 且 使 MapReduce 计 算 框架 成 为 可 


能 。 
3.3.2 MapReduce 


MapReduce 是 一 个 分 布 式 计算 软件 框 染 ， 文 持 编写 处 理 大 数据 量 
(TB 以 上 ) 的 应 用 程序 。MapReduce 程 序 可 以 在 几 千 个 节点 组 成 的 集群 
上 并 行 执行 。 集 群 节点 使 用 通用 的 硬件 ， 以 硬件 元 余 保 证 系统 的 可 靠 性 
和 可 用 性 ， 而 MapReduce 框 架 则 从 软件 上 保证 处 理 任务 的 可 靠 性 和 容错 
性 。 


在 Hadoop 中 每 个 MapReduce 应 用 程序 被 表示 成 一 个 作业 ， 每 个 作业 
又 被 分 成 多 个 任务 。 应 用 程序 同 框 染 提 交 一 个 MapReduce 作 业 ， 人 作业 一 
般 会 将 输入 的 数据 集合 分 成 彼此 独立 的 数据 块 ， 然 后 由 map 任 务 以 并 行 
方式 完成 对 数据 分 块 的 处 理 。 框 架 对 map 的 输出 进行 排序 ， 之 后 输入 到 
reduce 任 务 。MapReduce 作 业 的 输入 输出 都 存储 在 一 个 如 HDFS 的 文件 系 
统 上 。 框 架 调度 并 监控 任务 的 执行 ， 当 任务 失败 时 框架 会 重新 启动 任 
务 。 

通常 情况 下 ， 集 群 中 的 一 个 节点 既是 计算 节点 ， 义 是 存储 节点 。 世 
就 是 说 ，MapReduce 框 架 和 HDFS 共 同 运 行 在 多 个 节点 之 上 。 这 种 设计 
效率 非常 高 ， 框 架 可 以 在 数据 所 在 的 节点 上 调度 任务 执行 ， 大 大 节省 了 
集群 节点 间 的 整体 带宽 。 


Hadoop 0.20.0 和 之 前 的 版 本 里 ，MapReduce 框 架 由 JobTracker 和 
TaskTracker 组 成 。JobTracker 是 一 个 运行 在 主 节点 上 的 后 台 服 务 进程 ， 
启动 之 后 会 一 直 监 昕 并 接收 来 自 各 个 TaskTracker 发 送 的 心跳 ， 包 括 资 源 
使 用 情况 和 任务 运行 情况 等 信息 。TaskTracker 是 运行 在 从 节点 上 的 进 
程 ， 它 一 方面 从 JobTracker 接 收 并 执行 各 种 命令 ， 包 括 提 交 任务 、 运 行 
任务 、 杀 死 任务 等 ， 男 一 方面 将 本 地 节点 上 各 个 任务 的 状态 通过 心跳 ， 




















周期 性 地 汇报 给 JobTracker。TaskTracker 与 JobTracker 之 间 采 用 RPC 协 议 
进行 通信 。 为 解决 MapReduce 框 架 的 性 能 上 瓶颈， 从 0.23.0 版 本 开始 ， 
Hadoop 的 MapReduce 框 架 完全 重 构 ， 使 用 YARN 管 理 资源 ， 框 架 的 组 成 
变 为 三 个 部 分 : 一 个 主 节点 上 的 资源 管理 器 ResourceManager， 每 个 从 
节点 上 的 节点 管理 器 NodeManager， 每 个 应 用 程序 对 应 的 
MRAppMaster. 


一 个 最 简单 的 MapReduce 应 用 程序 ， 只 需要 指定 输入 输出 的 位 置 ， 
并 实现 适当 的 接口 或 抽象 类 ， 就 可 以 提供 map 和 reduce 的 功能 。 提 交 应 
用 程序 时 ， 需 要 指定 依赖 的 包 、 相 关 环 境 变 量 和 可 选 的 MapReduce 作 业 
配置 参数 。Hadoop 作 业 客 户 问 将 程序 提交 的 MapReduce 作 业 及 其 相关 配 
置 发 送 给 ResourceManager，ResourceManager 把 作业 分 解 成 任务 ， 然 后 
把 任务 和 配置 信息 分 发 给 工作 节点 ， 调 度 并 监控 任务 的 执行 ， 同 时 问 作 
业 客 户 端 提 供 任 务 状态 和 诊断 信息 。 

尽管 Hadoop 框 架 是 用 Java 语 言 实现 的 ， 但 MapReduce 应 用 程序 却 不 
一 定 要 用 Java 来 编写 。Hadoop Streaming 提 供 了 一 个 便于 进行 MapReduce 
编程 的 工具 包 ， 使 用 它 可 以 基于 一 些 可 执行 命令 、 脚 本 语言 或 其 他 编程 
语言 来 实现 MapReduce。Hadoop Pipes 是 一 个 C++ API， 人 允许 用 户 使 用 
C++ 语言 编写 MapReduce 应 用 程序 。 











1. 处 理 步 又 


MapReduce 数 据 处 理 分 为 Split、Map、Shuffle 和 Reduce “4 个 步骤。 
应 用 程序 实现 Map 和 Reduce 步 又 的 逻辑 ，Split 和 Shuffle 步 又 由 框架 自动 
完成 ; 


(1) Split 步 又 


在 执行 MapReduce 之 前 ， 原 始 数据 被 分 割 成 若干 split， 每 个 split 作 


为 一 个 map 任 务 的 输入 ， 在 map 执 行 过 程 中 split 会 被 分 解 成 一 个 个 记录 

( 键 / ED) ，map 会 依次 处 理 每 一 个 记录 。 引 入 split 的 概念 是 为 了 解 
决 记录 洲 出 问题 。 假 设 一 个 map 任 务 处 理 一 个 块 中 的 所 有 记录 ， 那 么 当 
一 个 记录 跨越 了 块 边 界 时 怎么 办 昵 ? HDFS 的 块 大 小 是 严格 的 64MB CR 
认 值 ， 当 然 也 可 能 是 配置 的 其 他 值 ) ， 而 且 HDFS 并 不 关心 文件 块 中 存 
储 的 内 容 是 什么 ， 因 此 HDFS 无 法 评估 何 时 一 个 记录 跨越 了 多 个 块 。 


为 了 解决 此 问题 ，Hadoop 使 用 了 一 种 数据 块 的 逻辑 表示 ， 叫 做 
input splits。 当 MapReduce 作 业 客 户 端 计算 input splits 时 ， 它 会 计算 出 块 
中 第 一 个 和 最 后 一 个 完整 记录 的 位 置 。 如 果 最 后 一 个 记录 是 不 完整 的 ， 
input split 中 包含 下 一 个 块 的 位 置信 息 ， 还 有 完整 记录 所 需 的 字 节 仿 移 


EH 


ER o 











MapReduce 数 据 处 理 是 由 input splits 概 念 驱动 的 。 为 特定 应 用 计算 
出 的 input splits 数 量 决定 了 mapper 任 务 的 数量 。ResourceManager 尽 可 能 
把 每 个 map 任 务 分 配 到 存储 input split 的 从 节点 上 上， 以 此 来 保证 input splits 
被 本 地 处 理 。 


(2) Map 步 又 


一 个 MapReduce 应 用 逐一 处 理 input splits 中 的 每 一 条 记录 。input 
splits 在 上 一 步 又 被 计算 完成 之 后 ，map 任 务 便 开始 处 理 它们 ， 此 时 
Resource Manager 的 调度 器 会 给 map 任 务 分 配 它 们 处 理 数据 所 需 的 资 


对 于 文本 文件 ， 默 认为 文件 里 的 每 一 行 是 一 条 记录 ， 一 行 的 内 容 是 
键 / 值 对 中 的 值 ， 从 split 的 起 始 位 置 到 每 行 的 字 节 偏 移 量 ， 是 键 / 值 对 
中 的 键 。 之 所 以 不 用 行 号 当 作 键 ， 是 因为 当 一 个 大 的 文本 文件 被 分 成 了 
许多 数据 块 ， 当 作 很 多 splits 处 理 时 ， 行 号 的 概念 本 身 就 是 存在 风险 的 。 
每 个 split 中 的 行 数 不 同 ， 因 此 在 处 理 一 个 split 之 前 就 计算 出 行 数 并 不 容 
易 。 但 字 节 仿 移 量 是 精确 的 ， 因 为 每 个 数据 块 部 有 相同 的 固定 的 字 市 





























数 。 

map 任 务 处 理 每 一 个 记录 时 ， 会 生成 一 个 新 的 中 间 键 / 值 对 ， 这 个 
键 和 值 可 能 与 输入 对 完全 不 同 。map 任 务 的 输出 就 是 这 些 中 间 键 / 值 对 
的 全 部 集合 。 为 每 个 map 任 务 生成 最 终 的 输出 文件 前 ， 先 会 依据 键 进行 
分 区 ， 以 便 将 同一 分 组 的 数据 交 给 同一 个 reduce 任 务 处 理 。 在 非常 简单 
的 应 用 场景 下 ， 可 能 只 有 一 个 reduce 任 务 ， 此 时 map 任 务 的 所 有 输出 都 
会 被 写 入 一 个 文件 。 但 是 在 有 多 个 reduce 任 务 的 情况 下 ， 每 个 map 任 务 
会 基于 分 区 键 生成 多 个 输出 文件 。 框 架 默 认 的 分 区 函数 
(HashPartitioner) 满足 大 多 数 情 况 ， 但 有 时 也 需要 定制 自己 的 
partitioner， 例 如 需要 对 mapper 的 结果 集 进 行 二 次 排序 时 。 


在 应 用 程序 中 最 好 对 map 任 务 的 输出 文件 进行 压缩 以 获得 更 优 的 性 
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(3) Shuffle 步 又 


Map 步 骤 之 后 ， 开 始 Reduce 处 理 之 前 ， 还 有 一 个 重要 的 步骤 叫做 
Shuffle。MapReduce 保 证 每 个 reduce 任 务 的 输入 都 是 按照 键 排 好 序 的 。 
系统 对 map 任 务 的 输出 执行 排序 和 转换 ， 并 映射 为 reduce 任 务 的 输入 ， 
此 过 程 就 是 Shuffle， 它 是 MapReduce 的 核心 处 理 过 程 。 在 Shuffle 中 ， 会 
把 map 任 务 输出 的 一 组 无 规则 的 数据 尽量 转换 成 一 组 具有 一 定 规则 的 数 
据 ， 然 后 把 数据 传递 给 reduce 任 务 运行 的 节点 。Shuffle 横 跨 Map 端 和 
Reduce 端 ， 在 Map 端 包括 spi 计 过 程 ， 在 Reduce 端 包括 copy 和 sort 过 程 ， 如 
图 3-5 所 示 。 


Reduce 


reduce 





Shuffle 


图 3-5 “Shuffle 过 程 





需要 注意 的 是 ， 只 有 当 所 有 的 map 任 务 都 结束 时 ，reduce 任 务 才 会 
开始 处 理 。 如 果 一 个 map 任 务 运行 在 一 个 配置 比较 差 的 从 节点 上 ， 它 的 
清 后 会 影响 MapReduce 作 业 的 性 能 。 为 了 避免 这 种 情况 的 发 生 ， 
MapReduce 框 架 使 用 了 一 种 叫做 推测 执行 的 方法 。 所 谓 的 推测 执行 ， 驶 
是 当 所 有 task 都 开始 运行 之 后 ，MRAppMaster 会 统计 所 有 任务 的 平均 进 
度 ， 如 果 某 个 task 所 在 的 task node 因 为 硬件 配置 比较 低 或 者 CPU load 很 
高 等 原因 ， 导 致 任务 执行 比 总 体 任务 的 平均 执行 慢 ， 此 时 MRAppMaster 
会 启动 一 个 新 的 任务 (duplicate task) ， 原 有 任务 和 新 任务 哪个 先 执行 
完 就 把 另外 一 个 kil。 另 外 ， 根 据 mapreduce job 祖 等 的 特点 ， 同 一 个 task 
执行 多 次 的 结果 是 一 样 的 ， 所 以 task 只 要 有 一 次 执行 成 功 ，job 就 是 成 功 
的 ， 补 kill 的 task 对 job 的 结果 没有 影响 。 如 果 你 监测 到 任务 执行 成 功 ， 
但 是 总 有 些 任务 被 kl， 或 者 map 任 务 的 数量 比 预期 的 多 ， 可 能 就 是 此 原 
因 所 在 。 


map 任 务 的 输出 不 写 到 HDFS， 而 是 写 入 map 任 务 所 在 从 节点 的 本 地 
磁盘， 这 个 中 间 结 果 也 不 会 在 Hadoop 集 群 间 进行 复制 。 


(4) Reduce $% 


Reduce 步 又 负责 数据 的 计算 归并 ， 它 处 理 Shuffle 后 的 每 个 键 及 其 对 
应 值 的 列表 ， 并 将 一 系列 键 / 值 对 返回 给 客户 端 应 用 。 有 些 情况 下 只 需 
要 Map 步 骤 的 处 理 就 可 以 为 应 用 生成 输出 结果 ， 这 时 就 没有 Reduce 步 
又。 例如 ， 将 全 部 文本 转换 成 大 写 这 种 基本 的 转化 操作 ， 或 者 从 视频 文 
件 中 抽取 关键 帧 等 。 这 些 数 据 处 理 只 要 Map 阶 段 就 够 了 ， 因 此 又 叫 map- 
only 作 业 。 但 在 大 多 数 情况 下 ， 到 map 任 务 输出 结果 只 完成 了 一 部 分 工 
作 。 剩 下 的 任务 是 对 所 有 中 间 结 果 进 行 归 并 、 聚 合 等 操作 ， 最 终生 成 一 
个 汇总 的 结果 。 

与 map 任 务 类 似 ，reduce 任 务 也 是 逐条 处 理 每 一 个 键 。 通 常 reduce 为 
每 个 处 理 的 键 返回 单一 键 / 值 对 ， 但 这 个 结果 键 / 值 对 可 能 会 比 原始 输 
入 的 键 / 值 对 小 得 多 。 当 reduce 任 务 完成 后 ， 每 个 reduce 任 务 的 输出 会 
写 入 一 个 结果 文件 ， 并 将 结果 文件 存储 到 HDFS 中 ，HDFS 会 自动 生成 结 
果 文 件数 据 块 的 副本 。 


Resource Manager 会 尽量 给 map 任 务 分 配 资源 ， 确 保 input splits 被 本 
地 处 理 ， 但 这 个 策略 不 适用 于 reduce 任 务 。Resource Manager 假 定 map 的 
结果 集 需 要 通过 网 络 传输 给 reduce 任 务 进行 处 理 。 这 样 实现 的 原因 是 ， 
要 对 成 百 上 千 的 map 任 务 输 出 进行 Shuffle， 没 有 切实 可 行 的 方法 为 
reduce 实 施 相同 的 本 地 优先 策略 。 


2. 逻辑 表示 

















MapReduce 计 算 模 型 一 般 包 括 两 个 重要 的 阶段 Map 是 映射 ， 负 责 
数据 的 过 滤 分 发 ，Reduce 是 规约 ， 负 员 数 据 的 计算 归并 。Map 函 数 和 
Reduce 函 数 都 是 通过 键 / 值 对 来 操作 数据 的 。Map 函 数 将 输入 数据 按 数 
据 的 类 型 和 一 定 的 规则 进行 分 解 ， 并 返回 一 个 中 间 键 / 值 对 的 列表 ， 如 
下 所 示 : 


Map(k1i,v1) 5 list(k2,v2) 


Reduce 函 数 处 理 Map 阶 段 产生 的 组 ， 按 键 依次 产生 归并 后 的 值 的 集 
合 ， 如 下 所 示 : 


Reduce(k2, list (v2)) — list(v3) 


通常 一 次 Reduce 调 用 会 返回 一 个 v3 值 或 返回 空 ， 尽 管 允 许 一 次 调用 
返回 多 个 值 。 所 有 Reduce 调 用 的 返回 值 集 成 在 一 起 作为 请 求 的 结果 列 
A. 


为 了 实现 MapReduce， 仅 仅 有 键 / 值 对 的 抽象 是 不 够 的 。 
MapReduce 的 分 布 式 实现 还 需要 一 个 Map 和 Reduce 两 个 执行 阶段 的 “连接 
器 ”， 它 可 以 是 一 个 分 布 式 文件 系统 ， 如 HDFS， 也 可 以 是 从 mapper 到 
reducer 的 数据 流 。 

既然 本 书 讲 的 是 数据 仓库 ， 我 们 就 来 看 一 个 SQL 的 例子 。 想 象 有 一 
个 11 亿 人 口 数据 的 数据 库 ， 要 按 年 龄 分 组 统计 每 个 年 龄 的 平均 社会 天 系 
数 。 查 询 语句 如 下 : 





select 


age, avg 


(contacts) 
from 


social.person 
group by 


age 
order by 


age; 


使 用 MapReduce，K1 键 可 以 是 1 到 1100 的 整数 ， 每 个 整数 表示 一 个 
100 万 条 人 口 记录 的 批 次 号 。K2 键 是 人 口 的 年 龄 。 这 个 统计 可 以 使 用 下 
面 的 Map/Reduce 函 数 伪 代 码 实现 : 


function Map is 
input: integer K1 between 1 and 1100, representing a batch o 
records 
for each social.person record in the K1 batch do 
let Y be the person's age 
let N be the number of contacts the person has 
produce one output record (Y,(N,1)) 
repeat 
end function 


function Reduce is 
input: age (in years) Y 
for each input record (Y,(N,C)) do 
Accumulate in S the sum of N*C 
Accumulate in Cnew the sum of C 
repeat 
let A be S/Cnew 
produce one output record (Y,(A,Cnew)) 
end function 


MapReduce 系 统 将 线性 增长 到 1100 个 Map 进 程 ， 每 个 进程 处 理 100 万 
条 输入 记录 。 在 Map 步 又 里 ， 将 产生 11 亿 条 (YY,(N,1)) 记录 ，Y 表 示 年 
龄 ， 假 设 取 值 范围 在 8 到 103 之 间 。MapReduce 系 统 将 线性 产生 96 个 
Reduce 进 程 执行 中 间 键 / 值 对 的 Shuffle 操 作 。 每 个 Map 进 程 产 生 的 100 
万 条 记录 ， 经 过 输出 、 排 序 、 洲 写 、 合 并 等 map 端 的 Shuffle 操 作 ， 输 出 
到 96 个 Reduce 进 程 ，Reduce 端 再 进行 合并 排序 ， 计 算 我 们 实际 需要 的 每 
个 年 龄 的 平均 社会 关系 人 数 。Reduce 步 骤 只 会 产生 96 条 CY,AO 的 输出 
记录 ， 它 们 以 Y 值 排序 ， 被 记录 到 最 终 的 结果 文件 。 


记 住 ， 尽 管 一 个 reduce 任 务 可 能 已 经 获得 了 所 有 map 任 务 的 输出 ， 
但 是 只 有 在 所 有 的 map 任 务 部 结 束 后 ，reduce 任 务 才 开始 执行 ， 换 句 话 











说 ， 要 保持 对 map 任 务 的 计数 。 这 一 点 至 关 重 要 ， 人 否则 我 们 计算 的 平均 
值 就 是 错误 的 。 例 如 ， 经 过 map 端 Shuffle 操 作 的 输出 如 下 : 
- map output #1: age, quantity of contacts 
10, 9 
10, 9 
10, 9 


- map output #2: age, quantity of contacts 
10, 9 
10, 9 


- map output #3: age, quantity of contacts 
10，10 
如 果 在 前 两 个 map 输 出 完成 就 开始 reduce 计 算 任 务 ， 此 时 得 到 的 结 
Ræ: 10 风 的 平均 社会 天 系 人 数 是 9((9+9+9+9+9)/5): 
- reduce step #1: age, average of contacts 
10, 9 
这 时 第 三 个 map 输 出 完成 ， 继 续 计算 平均 值 时 ， 我 们 得 到 的 结果 是 
9.5((9+10)/2)， 但 这 个 数 是 错误 的 ， 正 确 的 结果 应 该 是 
9.166((9*3+9*2+10*1)/(3+2+1)). 


3. 应 用 程序 定义 
MapReduce 框 架 中 可 以 由 应 用 程序 定义 的 部 分 主要 有 : 


。 输入 程序 : 输入 程序 将 输入 的 文件 分 解 成 适当 大 小 的 ‘splits*( 实 
践 中 典型 的 是 64MB 或 128MB ) ， 框 架 为 每 一 个 split 赋 予 一 个 Map 
任务 。 输 入 程序 从 稳定 存储 一般 是 分 布 式 文件 系统 ) 读 取 数据 
并 生成 键 / 值 对 。 输 入 程序 最 常见 的 例子 是 读 取 一 个 目录 下 的 所 
有 文件 ， 并 将 每 一 行 作 为 一 个 记录 返回 。 

。map 函 数 : map 函 数 处 理 输入 的 键 / 值 对 ， 生 成 零 个 或 多 个 中 间 








输入 键 / 值 对 。map 函 数 的 输入 与 输出 可 以 是 不 同 的 类 型 。 例 如 
单词 计数 应 用 ，map 函 数 分 解 每 行 的 单词 并 输出 每 个 单词 的 键 / 
值 对 。 单 词 是 键 ， 单 词 的 实例 数 是 值 。 

e 分 区 函数 : 每 个 map 函 数 的 输出 通过 应 用 定义 的 分 区 函数 分 配给 
特定 的 reduce 任 务 。 分 区 函数 的 输入 是 键 、 值 和 reduce 任 务 的 数 
量 ， 输 出 reduce 任 务 的 索引 值 。 典 型 的 分 区 函数 是 取 键 的 哈 希 
值 ， 或 对 键 的 哈 希 值 用 reduce 任 务 数 取 模 。 选 择 适当 的 分 区 函数 
对 于 数据 在 reduce 间 的 平均 分 布 和 负载 均衡 非常 重要 。 

e 比较 函数 : 通过 应 用 的 比较 函数 从 Map 运 行 的 节点 为 reduce 拉 取 
数据 并 排序 。 

e reducePAZg: 框架 按键 的 排序 为 每 个 唯一 的 键 调用 一 次 应 用 的 
reduce 函 数 。reduce 函 数 会 在 与 键 相 关 的 多 个 值 中 迭代 ， 然 后 生 
成 零 个 或 多 个 输出 。 例 如 单词 计数 应 用 ，reduce 函 数 获取 到 输入 
值 ， 对 它们 进行 汇总 计算 ， 并 为 每 个 单词 及 其 计数 值 生成 单个 输 
出 项 。 

e 输出 程序 ， 输出 程序 负责 将 reduce 的 输出 写 入 稳定 存储 。 





4. MapReduce 示 例 





MapReduce 是 一 个 分 布 式 编程 模式 。 它 的 主要 思想 是 ， 将 数据 Map 
为 一 个 键 / 值 对 的 集合 ， 然 后 对 所 有 键 / 值 对 按照 相同 键 值 进行 
Reduce。 为 了 直观 地 理解 这 种 编程 模式 ， 看 一 个 在 10TB 的 Web 日 志 中 计 








算 “ERROR” 个 数 的 例子 。 假 设 Web 日 志 输 出 到 一 系列 文本 文件 中 ， 文 件 
中 的 每 一 行 代 表 一 个 事件 ， 以 ERROR、WARN 或 INFO 之 一 开头 ， 表 示 
事件 级 别 。 一 行 的 其 他 部 分 由 事件 的 时 间 惟 及 其 描述 组 成 ， 如 图 3-6 所 

示 。 








图 3-6 ”Web 日 志 中 的 文本 


我 们 可 以 非常 容易 地 使 用 MapReduce 模 式 计算 *ERROR” 的 数量 。 如 
图 3-7 所 示 ， 在 map 阶 段 ， 识 别 出 每 个 以 *ERROR” 开 头 的 行 并 输出 键 值 
对 <ERROR， 1>。 在 reduce 阶 段 我 们 只 需要 对 map 阶 段 生 成 的 <ERROR， 
1> 对 进行 计数 。 

对 这 个 例子 稍微 做 一 点 扩展 ， 现 在 想 知 道 日 志 中 ERROR、 
WARN、INFO 分 别 的 个 数 。 如 图 3-8 所 示 ， 在 map 阶 段 检查 每 一 行 并 标 
识 键 值 对 ， 如 果 行 以 INFO” 开 头 ， 刍 值 对 为 <INFO， 1>， 如 果 
以 “WARN” 开 头 ， 键 值 对 为 <WARN， 1>， 如 果 以 “ERROR” 开 头 ， 键 值 
对 为 <ERROR， 1>。 在 reduce 阶 段 ， 对 每 个 map 阶 段 生成 的 唯一 键 
值 *INFO”WARN” 和 “ERROR>” 进 行 计 数 。 
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图 3-8  MapReduce2 Jl Zit}‘ERROR’. ‘WARN’, ‘INFO’ IA 


通过 上 面 简单 的 示例 我 们 已 经 初步 理解 了 MapReduce 编 程 模式 是 如 
何 工 作 的 ， 现 在 看 一 下 MapReduce 是 怎么 实现 的 。 如 图 3-9 所 示 ， 
Hadoop MapReduce 的 实现 分 为 split、map、shuffle 和 reduce 4 步 。 开 发 者 
只 需要 在 Mappers 和 Reducers 的 Java 类 中 编码 map 和 reduce 阶 段 的 逻辑 ， 
框架 完成 其 余 的 工作 。 
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图 3-9 MapReduce 执 行 步 又 


MapReduce 的 处 理 流程 如 下 : 


e HDFS 分 布 数据 。 

e HY ARNIE RK AYE A E mapper sk i 

。 在 可 用 的 节点 上 建立 mapper 实 例 。 

对 mappers 的 输出 进行 混 洗 ， 确 保 一 个 键 对 应 的 所 有 值 都 分 配给 
相同 的 reducer。 

e 问 YARN 请 求 资 源 以 建立 reducer 实 例 。 

。 在 可 用 的 节点 上 建 并 reducer 实 例 。 


表面 上 看 ， 似 乎 MapReduce 能 处 理 的 情况 十 分 有 限 ， 但 实际 结果 却 
是 ， 正 如 前 面 统计 平均 社会 关系 人 数 的 例子 所 示 ， 大 多 数 SQL 操 作 都 可 
以 被 表达 成 一 连 串 的 MapReduce 操 作 ， 并 且 Hadoop 生 态 圈 的 工具 可 以 自 
动 把 SQL 转化 成 MapReduce 程 序 处理 ， 所 以 对 于 熟悉 SQL 的 开发 者 来 





说 ， 不 必 再 自己 实现 Mapper 或 者 Reducer。 
3.3.3 YARN 


YARN 是 一 种 集群 管理 技术 ， 全 称 是 Yet Another Resource 
Negotiator。 从 图 3-10 可 以 看 到 ，YARN 是 第 二 代 Hadoop 的 一 个 关键 特 
性 。Apache 开 始 对 YARN 的 摘 述 是 ， 为 MapReduce 重 新 设计 的 一 个 资源 
管理 器 ， 经 过 不 断 地 发 展 和 改进 ， 现 在 的 YARN 更 像 是 一 个 支持 大 数据 
应 用 的 分 布 式 操作 系统 。 
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图 3-10 ”Hadoop1.0 与 Hadoop2.0 


2012 年 ，YARN 成 为 Apache Hadoop 的 子 项 目 ， 有 时 也 叫 MapReduce 
2.0。 它 对 老 的 MapReduce 进 行 重 构 ， 将 资源 管理 和 调度 功能 与 
MapReduce 的 数据 处 理 组 件 解 簿 ， 以 使 Hadoop 可 以 文 持 更 多 的 数据 处 理 
方法 和 更 广泛 的 应 用 。 例 如 ， 现 在 的 Hadoop 集 群 可 以 同时 执行 
MapReduce 批 处 理 作业 、 交 互 式 查 询 和 流 数 据 应 用 。 最 初 的 Hadoop 1.x 
中 ，HDFS 和 MapReduce 被 紧密 联系 在 一 起 ，MapReduce 并 行 执行 
Hadoop 系 统 上 的 资源 管理 、 作 业 调 度 和 数据 处 理 。YARN 使 用 一 个 中 心 
资源 管理 右 给 应 用 分 配 Hadoop 系 统 资源 ， 多 个 节点 管理 器 监控 集群 中 各 
个 节点 的 操作 处 理 情况 。 


1. 第 一 代 Hadoop 的 问题 


第 一 代 Hadoop 是 共享 HDFS 实 例 的 MapReduce 集 群 模型 。 这 种 共享 
计算 架构 的 主要 组 件 是 JobTracker 和 TaskTracker。JobTracker 是 一 个 中 央 
守护 进程 ， 负 责 运行 集群 上 的 所 有 作业 。 用 户 程序 (JobClient) 提交 的 
作业 信息 会 发 送 到 JobTracker 中 ，JobTracker 与 集群 中 的 其 他 节点 通过 心 
跳 定 时 通信 ， 管 理 哪 些 任 务 应 该 运行 在 哪些 市 点 上 ， 还 负责 所 有 任务 的 
失败 重启 操作 。TaskTracker 是 系统 里 的 从 进程 ， 它 监视 自己 所 在 机 器 的 
资源 情况 ， 并 根据 JobTracker 的 指令 来 执行 任务 。TaskTracker 同 时 监控 
当前 机 器 的 任务 运行 状况 。TaskTracker 需 要 把 这 些 信 息 通过 心跳 发 送 给 
JobTracker，JobTracker 会 搜集 这 些 信息 以 给 新 提交 的 作业 分 配 运 行 资 

第 一 代 MapReduce 的 架构 简单 明了 ， 刚 推出 时 也 有 很 多 成 功 案例 ， 
但 随 着 分 布 式 系 统 的 集群 规模 和 工作 负荷 不 断 增 长 ， 使 用 原 框架 显露 出 
以 下 问题 : 











e 可 扩展 性 问题 。JobTracker 完 成 了 太 多 的 任务 ， 造 成 了 过 多 的 资 
源 消耗 ， 当 MapReduce 作 业 非 常 多 的 时 候 ， 会 产生 很 大 的 内 存 开 
销 ， 同 时 也 增加 了 JobTracker 失 败 的 风险 。 内 存 管理 以 及 
JobTracker 中 各 特性 的 粗 粒 度 锁 问 题 成 为 可 扩展 性 的 显著 瓶 宽 。 
将 JobTracker 扩 展 到 4000 个 布点 规模 的 集群 被 证 明 是 极端 困难 

的 。 

内 存 汶 出 问题 。 在 TaskTracker 端 ， 以 MapReduce 任 务 的 数目 作为 
资源 的 表示 过 于 简单 ， 没 有 考虑 到 任务 中 CPU、 内 存 的 占用 情 
况 ， 如 果 几 个 大 内 存 消 耗 的 任务 被 调度 到 了 一 起 ， 很 容易 出 现 内 
存 溢 出 问题 。 

可 靠 性 与 可 用 性 问题 。JobTracker 失 败 所 引发 的 中 断 ， 不 仅仅 是 
丢失 单独 的 一 个 作业 ， 而 是 会 丢失 集群 中 所 有 的 运行 作业 ， 并 且 


要 求 用 户 手动 重新 提交 并 恢复 他 们 的 作业 。 从 操作 的 角度 来 看 ， 
MapReduce 框 架 在 发 生 任 何 变 化 时 (如 修复 缺陷 、 性 能 提升 或 增 
加 特性 ) ， 都 会 强制 进行 系统 级 别 的 升级 更 新 。 操 作 员 必须 协调 
好 集群 停机 时 间 ， 关 掉 集 群 ， 部 署 新 的 二 进 制 文件 ， 验 证 升级 ， 
然后 才 人 允许 提交 新 的 作业 。 任 何 停 机 都 会 导致 处 理 的 积压 ， 当 作 
业 被 重新 提交 时 ， 它 们 会 给 JobTracker 造 成 明显 的 压力 。 更 糟 的 
是 ， 升 级 强制 让 分 布 式 集群 系统 的 每 一 个 客户 端 同时 更 新 。 这 些 
更 新 会 让 用 户 为 了 验证 他 们 之 前 的 应 用 程序 是 否 适 用 于 新 的 
Hadoop 版 本 而 浪费 大 量 时 间 。 

资源 模型 问题 。 在 TaskTracker 端 ， 把 资源 强制 划分 为 map 任 务 模 
位 和 reduce 任 务 槽 位 ，map 和 reduce 的 槽 位 数量 是 配置 的 固定 值 ， 
因此 闲置 的 map 资 源 无 法 启动 reduce 任 务 ， 反 之 亦 然 。 当 系统 中 
只 有 map 任 务 或 只 有 reduce 任 务 的 时 候 ， 也 会 造成 资源 的 浪费 。 














2. YARN 架 构 


为 了 解决 第 一 代 Hadoop 的 可 扩展 性 、 内 存 消耗 、 线 程 模 型 、 可 靠 性 
和 性 能 上 的 问题 ，Hadoop 开 发 出 新 一 代 的 MapReduce 框 架 ， 命 名 为 
MapReduce V2 或 者 叫 YARN， 其 架构 如 图 3-11 所 示 。 





图 3-11 YARN 架 构 


YARN 的 基本 思想 是 将 资源 管理 和 调度 及 监控 功能 从 MapReduce 分 
离 出 来 ， 用 独立 的 后 台 进 程 实 现 。 这 个 想法 需要 有 一 个 全 局 的 资源 管理 
器 (ResourceManager) ， 每 个 应 用 还 要 有 一 个 应 用 主管 
(ApplicationMaster) 。 应 用 可 以 是 一 个 单独 MapReduce 作 业 ， 或 者 是 
一 个 作业 的 有 辣 无 环 图 (DAG) 。 


资源 管理 器 和 节点 管理 器 (NodeManager) 构成 了 分 布 式 数据 计算 
框架 。 资 源 管理 器 是 系统 中 所 有 应 用 资源 分 配 的 最 终 仲裁 者 。 闻 点 管理 
器 是 框架 中 每 个 工作 节点 的 代理 ， 监 控 节 点 CPU、 内 存 、 磁 盘 、 网 络 等 
资源 的 使 用 ， 并 且 报 告 给 资源 管理 占 。 

每 个 应 用 对 应 的 ApplicationMaster 实 际 上 是 框架 中 一 组 特定 的 库 ， 
负责 从 资源 管理 器 协调 资源 ， 并 和 节点 管理 器 一 起 工作 ， 共 同 执行 和 监 
控 任 务 。 

资源 管理 器 有 两 个 主要 组 件 : 调度 器 和 应 用 管理 占 。 调 度 器 负责 给 
多 个 正在 运行 的 应 用 分 配 资 源 ， 比 如 对 每 个 应 用 所 能 使 用 的 资源 做 限 
制 ， 近 一 定 规则 排队 等 。 调 度 器 只 负责 资源 分 配 ， 它 不 监控 或 跟 踊 应 用 























的 状态 。 而 且 ， 当 任务 因为 应 用 的 错误 或 硬件 问题 而 失败 后 ， 调 度 器 不 
保证 能 重启 它们 。 调 度 器 根据 应 用 对 资源 的 需求 执行 其 调度 功能 ， 这 基 
于 一 个 叫做 资源 容器 的 抽象 概念 。 资 源 容 器 由 内 存 、CPU、 了 磁盘 、 网 络 
等 元 素 构 成 。 调 度 器 使 用 一 个 可 插 拔 的 调度 策略 ， 将 集群 资源 分 配给 多 
个 应 用 。 当 前 支持 的 调度 器 如 CapacityScheduler 和 FairScheduler 束 是 可 插 
拔 调度 器 的 例子 。 

应 用 管理 器 儿 贡 接收 应 用 提交 的 作业 ， 协 调 执 行 特定 应 用 所 和 需 的 资 
源 容 器 ， 并 在 ApplicationMaster 容 右 失 败 时 提供 重启 服务 。 每 个 应 用 对 
应 一 个 ApplicationMaster， 它 癌 调度 器 请 求 适当 的 资源 容器 ， 并 跟踪 应 
用 的 状态 和 资源 使 用 情况 。 

Hadoop-2.x 的 MapReduce API 保 持 与 之 前 的 稳定 版 本 (Hadoop-1.x) 
兼容 。 这 意味 痢 老 的 MapReduce 作 业 不 需要 做 任何 修改 ， 只 需要 重新 编 
译 就 可 以 在 YARN 上 执行 。 





3. Capacity 调 度 器 


Capacity 调 度 器 以 一 种 操作 友好 的 方式 ， 把 Hadoop 应 用 作为 一 个 共 
享 的 、 多 租户 集群 来 运行 ， 并 把 集群 利用 率 和 吞吐 量 最 大 化 。Capacity 
调度 器 允许 多 用 户 安全 地 共享 一 个 大 规模 Hadoop 集 群 ， 并 保证 它们 的 性 
能 。 其 核心 思想 是 ，Hadoop 集 群 中 的 可 用 资源 为 多 个 用 户 所 共享 ， 资 源 
的 多 少 是 由 他 们 的 计算 需求 决定 的 。 基 于 这 种 思想 带 来 的 一 个 好 处 是 ， 
只 要 资源 没有 被 其 他 用 户 使 用 ， 一 个 用 户 就 可 以 使 用 它 ， 从 而 以 一 种 有 共 
有 成 本 效益 的 方式 提供 资源 的 弹性 使 用 。 

多 个 用 户 共 享 集群 ， 必 须要 实现 所 谓 的 多 租户 (multi-tenancy) 技 
术 ， 这 是 因为 集群 中 的 每 个 用 户 任 务 都 必须 保证 高 性 能 和 安全 性 。 特 别 
是 集群 中 出 现 了 某 个 用 户 或 应 用 试图 占用 大 量 资 源 时 ， 共 享 的 集群 必须 
做 到 不 影响 其 他 用 户 的 使 用 。Capacity 调 度 器 提供 了 一 套 严 格 的 限制 机 
制 ， 确 保单 一 应 用 或 用 户 不 能 消耗 集群 中 不 成 比例 的 资源 数量 。 并 是 ， 

















Capacity 调 度 器 可 能 限制 或 挂 起 一 个 异常 应 用 ， 以 保证 整个 集群 的 稳 
KE © 


Capacity 调 度 器 一 个 主要 的 抽象 概念 是 队列 (queues) 。 队 列 是 
Capacity 的 基础 调度 单元 ， 管 理 员 可 以 通过 配置 队列 来 影响 共享 集群 的 
使 用 。 为 了 提供 更 多 的 控制 和 可 预测 性 ，Capacity 调 度 器 支持 层次 队 
列 ， 保 证 资源 在 允许 其 他 队列 使 用 之 前 ， 被 一 个 用 户 的 子 队列 优先 共 
享 ， 以 此 为 特定 应 用 提供 资源 杀 和 性 。 





4. Fair 调 度 器 





Fair 调 度 是 将 资源 公平 分 配给 应 用 的 方法 ， 使 得 所 有 应 用 在 平均 情 
况 下 随 奢 时 间 得 到 相等 的 份额 。 新 一 代 Hadoop 有 人 能力 调度 多 种 资源 类 
型 。 默 认 时 Fair 调 度 器 只 在 和 内存 上 采用 公平 调度 。 


在 Fair 调 度 模 型 中 ， 每 个 应 用 都 属于 某 一 个 队列 。YARN Container 
的 分 配 是 选择 使 用 了 最 少 资源 的 队列 ， 在 这 个 队列 中 ， 再 选择 使 用 了 最 
少 资 源 的 应 用 程序 。 默 认 情 况 下 ， 所 有 的 用 户 共 享 一 个 称 为 “default” 的 
队列 。 如 果 一 个 应 用 程序 在 Container 资 源 请 求 中 指定 了 队列 ， 则 将 请 求 
提交 到 该 队列 中 。 另 外 ， 还 可 以 将 Fair 调 度 器 配置 成 根据 请 求 中 包含 的 
用 户 名 来 分 配 队 列 。Fair 调 度 器 还 支持 许多 功能 ， 如 队列 的 权重 (权重 
大 的 队列 获得 更 多 的 Container) ， 最 小 份额 ， 最 大 份额 ， 以 及 队列 内 的 
FIFO 策 略 ， 但 基本 思想 是 尽 可 能 平均 地 共享 资源 。 


在 Fair 调 度 器 下 ， 如 果 单 个 应 用 程序 正在 运行 ， 该 应 用 程序 可 以 请 
求 整 个 集群 资源 。 奉 有 其 他 程序 提交 ， 空 用 的 资源 可 以 被 公平 地 分 配给 
新 的 应 用 程序 ， 使 每 个 应 用 程序 最 终 可 以 获得 大 致 相当 的 资源 。Fair 调 
度 占 也 支持 抢占 的 概念 ， 从 而 可 以 从 ApplicationMaster 要 回 Container。 
根据 配置 和 应 用 程序 的 设计 ， 抢 占 和 随后 的 资源 分 配 可 以 是 友好 的 或 者 
强制 的 。 




















除了 提供 公平 共享 ，Fair 调 度 器 还 允许 保证 队列 的 最 小 份额 ， 这 是 
确保 某 些 用 户 、 组 ， 或 者 应 用 程序 总 能 得 到 的 资源 。 当 队列 中 有 等 待 的 
应 用 程序 ， 它 至 少 可 以 获取 其 最 小 份额 的 资源 。 与 此 相反 ， 当 队列 并 不 
需要 所 有 的 保证 份额 ， 超 出 的 部 分 可 以 分 配给 其 他 运行 的 应 用 程序 。 为 
了 避免 拥有 数 百 个 作业 的 单个 用 户 充 斥 整个 集群 ，Fair 调 度 器 可 以 通过 
配置 文件 限制 用 户 和 每 个 队列 中 运行 应 用 程序 的 数量 。 硅 达到 了 该 限 
制 ， 用 户 应 用 程序 将 在 队列 中 等 待 ， 直 到 前 面 提交 的 作业 完成 。 





5. Container 


在 最 基本 的 层面 ，Container 是 单个 节点 上 内 存 、CPU 核 和 人 厂 盘 等 物 
理 资源 的 集合 。 单 个 节点 上 可 以 有 多 个 Container。 系 统 中 的 每 个 节点 可 
以 认为 是 由 内 存 和 CPU 最 小 容量 的 多 个 Container 组 成 。 
ApplicationMaster 可 以 请 求 任 何 Container 来 占据 最 小 容量 的 整数 倍 的 资 
源 。 因 此 Container 代 表 了 集群 中 单个 节点 上 的 一 组 资源 (内 存 、CPU 
SR) ， 由 节点 管理 器 监控 ， 由 资源 管理 器 调度 。 


每 个 应 用 程序 从 ApplicationMaster 开 始 ， 它 本 身 就 是 一 个 
Container。 一 旦 启动 ，ApplicationMaster 束 与 资源 管理 器 协商 更 多 的 
Container。 在 运行 过 程 中 ， 可 以 动态 地 请 求 或 者 释放 Container。 例 如 ， 
一 个 MapReduce 作 业 可 以 请 求 一 定数 量 的 Map Container, "4 MapfE o5 i 
束 时 ， 它 可 以 释放 这 些 Map Container， 并 请 求 更 多 的 Reduce 


Container。 

















6. NodeManager 





NodeManager 是 DataNode 节 点 上 的 “工作 进程 > 代理 ， 管 理 Hadoop 集 
群 中 独立 的 计算 节点 。 其 职责 包括 与 ResourceManager 保 持 通 信 、 管 理 
Container 的 生命 周期 、 监 控 每 个 Container 的 资源 使 用 情况 、 跟 踪 节 点 健 
康 状 况 、 管 理 日 志和 不 同 应 用 程序 的 附属 服务 Cauxiliary services) 等 。 


在 启动 时 ，NodeManager 问 ResourceManager 注 册 ， 然 后 发 送 包 含 了 
自身 状态 的 心跳 ， 并 等 竺 来自 ResourceManager 的 指令 。 它 的 主要 目的 
是 管理 ResourceManager 分 配给 它 的 应 用 程序 Container。 


7. ApplicationMaster 


不 同 于 YARN 的 其 他 组 件 ，Hadoop 1.x 中 没有 组 件 和 
ApplicationMaster 相 对 应 。 本 质 上 讲 ，ApplicationMaster 所 做 的 工作 ， 就 
是 原来 JobTracker 为 每 个 应 用 所 做 的 ， 但 实现 却 是 完全 不 同 的 。 


运行 在 Hadoop 集 群 上 的 每 个 应 用 程序 ， 都 有 自己 专用 的 Application 
Master 实 例 ， 它 实际 上 运行 在 每 个 从 节点 的 一 个 Container 进 程 中 。 而 
JobTracker 是 运行 在 主 节 点 上 的 单个 后 台 进 程 ， 跟 踪 所 有 应 用 的 进行 情 
况 。 

ApplicationMaster 会 周期 性 地 向 ResourceManager 发 送 心 跳 消 息 ， 报 
告 自身 的 状态 和 应 用 的 资源 使 用 情况 。ResourceManager 根 据 调度 的 结 
果 ， 给 特定 从 节点 上 的 ApplicationMaster 分 配 一 个 预 留 的 Container 的 资 
源 租约 。ApplicationMaster 监 控 一 个 应 用 的 整个 生命 周期 ， 从 Container 
请 求 所 需 的 资源 开始 ， 到 ResourceManager 将 租约 请 求 分 配给 
NodeManager. 


为 Hadoop 编 写 的 每 个 应 用 框架 都 有 自己 的 ApplicationMaster 实 现 。 
在 YARN 的 设计 中 ，MapReduce 只 是 一 种 应 用 程序 框架 ， 这 种 设计 允许 
使 用 其 他 框架 建立 和 部 署 分 布 式 应 用 程序 。 例 如 ，YARN 附 珊 了 一 个 
Distributed-Shell 应 用 程序 ， 它 允许 在 YARN 集 群 中 的 多 个 节点 运行 一 个 
shell 脚 本 。 








3.4 Hadoop 生 态 较 的 其 他 组 件 


Hadoop 诞 生 之 初 只 有 HDFS 和 MapReduce 两 个 软件 组 件 ， 以 后 得 到 
非常 快速 的 发 展 ， 开 发 人 员 贡 献 了 众多 组 件 ， 以 至 形成 了 Hadoop 自 己 的 
生态 圈 。 如 图 3-12 所 示 ， 除 MapReduce 外 ， 目 前 已 经 存在 Spark、Tez 等 
分 布 式 处 理 引 擎 。 生 态 圈 中 还 有 一 系列 迁移 数据 、 管 理 集 群 的 辅助 工 
H. 


这 些 产 品 貌 似 各 不 相同 ， 但 是 三 种 共同 的 特征 把 它们 紧密 联系 起 
来 。 首 先 ， 它 们 都 依赖 于 Hadoop 的 基本 组 件 一 YARN、HDFS 或 
MapReduce。 其 次 ， 它 们 都 用 来 处 理 大 数据 ， 并 提供 建立 端 到 端 数据 流 
水 线 所 需 的 各 种 功能 。 最 后 ， 它 们 对 于 应 该 如 何 建立 分 布 式 系统 的 理念 
是 共通 的 。 

本 书后 面 章 节 会 详细 介绍 Sqgoop、Hive、Oozie、Impala、Hue 等 组 
件 ， 并 使 用 一 个 简单 的 实例 说 明 如 何 利用 这 些 组 件 实现 ETL、 定 时 自动 
执行 工作 流 、 数 据 分 析 、 数 据 可 视 化 等 完整 的 数据 仓库 功能 。 这 里 介绍 
另外 一 种 分 布 式 计 算 框架 一 S park. 
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图 3-12 Hadoop4E2 4 


Apache Spark 是 一 个 开源 的 集群 计算 框架 。 它 最 初 由 加 州 大 学 伯 死 
利 分 校 的 AMP 实 验 室 开发 ， 后 来 Spark 的 源 代 码 捐献 给 了 Apache 软 件 基 
金 会 ， 从 此 成 了 一 个 活跃 的 Apache 项 目 。Spark 提 供 了 一 套 完整 的 集群 
编程 接口 ， 内 含 容 错 和 并 行 数据 处 理 能 

Spark 基 本 的 数据 结构 叫做 弹性 分 布 式 数 据 集 (Resilient Distributed 
Datasets， 简 称 RDD ) 。 这 是 一 个 分 布 于 集群 节点 的 只 读数 据 集合 ， 并 
以 容错 的 、 并 行 的 方式 进行 维护 。 传 统 的 MapReduce 框 架 强 制 在 分 布 式 
编程 中 使 用 一 种 特定 的 线性 数据 流 处 理 方式 。MapReduce 程 序 从 磁盘 读 
取 输 入 数据 ， 把 数据 分 解 成 键 / 值 对 ， 经 过 混 洗 、 排 序 、 归 并 等 数据 处 
理 后 产生 输出 ， 并 将 最 终结 果 保 存在 磁盘 。Map 阶 段 和 Reduce 阶 段 的 结 
果 均 要 写 磁 盘 ， 这 大 大 降低 了 系统 性 能 。 也 是 由 于 这 个 原因 ，， 
MapReduce 大 都 被 用 于 执行 批 处 理 任务 。 为 了 解决 MapReduce 的 性 能 问 
题 ，Spark 使 用 RDD 作 为 分 布 式 程序 的 工作 集合 ， 它 提供 一 种 分 布 式 共 
享 内 存 的 受 限 形式 。 在 分 布 式 共 享 内 存 系 统 中 ， 应 用 可 以 同 全 局 地 址 空 
间 的 任意 位 置 进行 读 写 操作 ， 而 RDD 是 只 读 的 ， 对 其 只 能 进行 创建 、 转 
化 和 求 值 等 操作 。 

利用 RDD 可 以 方便 地 实现 迭代 算法 ， 简 单 地 说 就 是 能 够 在 一 个 循环 
中 多 次 访问 数据 集合 。RDD 还 适合 探索 式 的 数据 分 析 ， 能 够 对 数据 重复 
执行 类 似 于 数据 库 风 格 的 查询 。 相 对 于 MapReduce 的 实现 ，Spark 应 用 的 
延迟 可 以 降低 几 个 数量 级 ， 其 中 最 为 经 典 的 迭代 算法 是 用 于 机 器 学 习 系 
统 的 培训 算法 ， 这 也 是 开发 Spark 的 初 训 。 

Spark 需 要 一 个 集群 管理 器 和 一 个 分 布 式 存储 系统 作为 文 撑 。 对 于 
集群 管理 ，Spark 文 持 独 立 管 理 〈 原 生 的 Spark 集 群 ) , Hadoop YARN 和 
Apache Mesos。 对 于 分 布 式 存储 ，Spatk 可 以 与 多 种 系统 对 接 ， 包 括 
HDFS、MapR 文 件 系 统 、Cassandra、OpenStack Swift. Amazon S3, 
Kudu， 或 者 一 个 用 户 自己 实现 的 文件 系统 。Spark 还 文 持 伪 分 布 的 本 地 
部 署 模式 ， 但 通常 仅 用 于 开发 和 测试 目的 。 本 地 模式 不 需要 分 布 式 存 

















储 ， 而 是 用 本 地 文件 系统 代 蔡 。 在 这 种 场景 中 ，Spark 运 行 在 一 个 机 器 
上 ， 每 个 CPU 核 是 一 个 执行 器 Cexecutor) 。 


Spark 框 架 含 有 Spark Core. Spark SQL. Spark Streaming. MLlib 
Machine Learning Library、GraphX 等 几 个 主要 组 件 。 


1. Spark Core 


Spark Core 是 所 有 Spark 相 关 组 件 的 基础 。 它 以 RDD 这 个 抽象 概念 为 
核心 ， 通 过 一 组 应 用 程序 接口 ， 提 供 分 布 式 任务 的 分 发 、 调 度 和 基本 的 
IO 功能 。Spark ”Core 的 编程 接口 支持 Java、Python、Scala 和 R 等 程序 语 
言 。 这 组 接口 使 用 的 是 函数 式 编程 模式 ， 即 一 个 包含 对 RDD 进 行 map、 
filter、reduce、join 等 并 行 操作 的 驱动 程序 ， 向 Spark 传 递 一 个 函数 ， 然 
后 Spark 调 度 此 函数 在 集群 上 并 行 执行 。 这 些 基 本 操作 把 RDD 作 为 输入 
并 产生 新 的 RDD。RDD 上 自身 是 一 个 不 变 的 数据 集 ， 对 RDD 的 所 有 转换 
操作 都 是 lazy 模 式 ， 即 Spark 不 会 立刻 计算 结果 ， 而 只 是 简单 地 记 住 所 有 
对 数据 集 的 转换 操作 。 这 些 转 换 只 有 过 到 action 操 作 的 时 候 才 会 开始 真 
正 执行 ， 这 样 的 设计 使 Spark 更 加 高 效 。 容 错 功 能 是 通过 跟踪 每 个 RDD 
的 “血统 ”(lineage， 指 的 是 产生 此 RDD 的 一 系列 操作 〉 实现 的 。 一 旦 
RDD 的 数据 丢失 ， 还 可 以 使 用 血统 进行 重建 。RDD 可 以 由 任意 类 型 的 
Python、Java 或 Scala 对 象 构成 。 除 了 面向 函数 的 编程 风格 ，Spark 还 有 两 
种 形式 的 共享 变量 : broadcast 和 accumulators。broadcast 变 量 引用 的 是 需 
要 在 所 有 节点 上 有 效 的 只 读数 据 ，accumulators 可 以 简便 地 对 各 节点 返 
回 给 驱动 程序 的 值 进行 聚合 。 


一 个 典型 的 Spark 函 数 式 编程 的 例子 是 ， 统 计 文 本 文件 中 每 个 单词 
出 现 的 次 数 ， 也 束 是 常 说 的 词 频 统 计 。 在 下 面 这 段 Scala 程 序 代 码 中 ， 
个 flatMap 了 水 数 以 一 个 空格 作为 分 阳 符 ， 将 文件 分 解 为 由 单词 组 成 的 列 
表 ，map 疯 数 将 每 个 单词 列表 条 目 转 化 为 一 个 以 单词 为 键 ， 数 字 1 为 值 
的 RDD 对 ，reduceByKey 函 数 对 所 有 的 单词 进行 计数 。 每 个 函数 调用 都 























将 一 个 RDD 转 化 为 一 个 新 的 RDD。 对 比 相 同 功 能 的 Java 代 码 ，Scala 语 言 
的 简洁 性 一 目 了 然 。 

// 将 一 个 本 地 文本 文件 读 取 到 《文件 名 ， 文 件 内 容 ) 的 RDD 对 。 

val data = sc.textFile("file:///home/mysql/mysql-5.6.14/README") 
// 以 一 个 空格 作为 分 陋 符 ， 将 文件 分 解 成 一 个 由 单词 组 成 的 列表 。 

val words = data.flatMap( .split(" ")) 

// 为 每 个 单词 添加 计数 ， 并 进行 聚合 计算 

val wordFreq = words.map((_, 1)).reduceByKey( + ) 

// 取得 出 现 次 数 最 多 的 10 个 单词 

wordFreq.sortBy(s => -s. 2).map(x => (x.. 2, x. 1)).top(10) 

在 spark-shell (spark-shell 是 spark 自 带 的 一 个 快速 原型 开发 的 命令 行 
TA) 里 ， 这 段 代码 执行 结果 如 下 。 可 以 看 到 the 出 现 的 次 数 最 多 ， 有 
26 次 。 

scala» val data = sc.textFile("file:///home/mysql/mysql-5.6.14/R 


data: org.apache.spark.rdd.RDD[String] - file:///home/mysql/mysq 
MapPartitionsRDD[13] at textFile at <console>:27 


scala» val words - data.flatMap( .split(" ")) 
words: org.apache.spark.rdd.RDD[String] - MapPartitionsRDD[14] a 


scala» val wordFreq = words.map(( , 1)).reduceByKey( + _ 
wordFreq: org.apache.spark.rdd.RDD[(String, Int)] - ShuffledRDD[ 
«console»:31 


scala» wordFreq.sortBy(s => -s. 2).map(x => (x.. 2, x. 1)).top(10 
resi: Array[(Int, String)] = Array((26,the), (15,""), (14,0f), ( 
(6,version), (6,0r), (6,in), (6,a)) 


2. Spark SQL 


Spark ”SQL 是 基于 Spark ”Core 之 上 的 一 个 组 件 ， 它 引入 了 名 为 
DataFrames 的 数据 抽象 。DataFrames 能 够 文 持 结构 化 、 半 结构 化 数据 。 
Spark SQL 提供 了 一 种 “领域 特定 语言 ”(Domain-Specific Language, faj 
称 DSL) ， 用 于 在 Scala、Java 或 Python 中 操纵 DataFrames。 [HJM Spark 
SQL 也 通过 命令 行 接口 或 ODBCAJDBC 提 供 对 SQL 语言 的 支持 。 我 们 将 
在 12.3 节 详细 讨论 Spark SQL。 下 面 是 一 段 Scala 里 的 Spark SQL 代码 。 





val url = "jdbc:mysql://127.0.0.1/information schema?user-root&p 
val sqlContext = new org.apache.spark.sql.SQLContext(sc) 

val df = sqlContext.read.format("jdbc").option("url", url).optio 
df.printSchema() 

val countsByDatabase - df.groupBy("TABLE SCHEMA").count().show() 


这 段 代 码 用 Spark SQL 连接 本 地 的 MySQL 数 据 库 ， 屏 幕 打 印 
information_schema.tables 的 表 结 构 ， 并 按 table_schema 字 段 分 组 ， 计 算 
并 显示 每 组 的 记录 数 。 其 功能 基本 等 价 于 下 面 的 MySQL 语 人 句 : 


use information schema; 
desc tables; 
select table schema,count(*) from tables group by table schema; 


执行 代码 前 先 要 在 spark-env.sh 文 件 的 SPARK_CLASSPATH 变 量 中 
添加 MySQL JDBC 驱 动 的 JAR 包 ， 例 如 : 


export 


SPARK_CLASSPATH=$SPARK_CLASSPATH 


:/mysql-connector-java-5.1.31-bin.jar 
然后 进入 spark-shell 执 行 代码 ， 最 后 一 条 语句 显示 的 输出 如 下 所 
JR: 
scala» val countsByDatabase = df.groupBy("TABLE SCHEMA").count() 


TRU E EMIL EAR eee E ee eee + 
| TABLE. SCHEMA | count | 


es E a E daseec 十 
|performance schema | 52 | 

hadoop | 37 | 
|information schema | 59| 
| je 28 | 
deecsososoososnocoocoodoococ T 


countsByDatabase: Unit - () 


3. Spark Streaming 


Spark ” ”Streaming 利用 Spark ”Core 的 快速 调度 能 力 执行 流 数据 的 分 
析 。 它 以 最 小 批 次 获取 数据 ， 并 对 批 次 上 的 数据 执行 RDD 转 化 。 这 样 的 
设计 ， 可 以 让 用 于 批 处 理 分 析 的 Spark 应 用 程序 代码 也 可 以 用 于 流 数 据 
分 析 ， 因 此 便于 实时 大 数据 处 理 架构 的 实现 。 但 是 这 种 便利 性 融 来 的 问 
题 是 处 理 最 小 批 次 数据 的 延 时 。 其 他 流 数 据 处 理 引 擎 ， 例 如 Storm 和 
Flink 的 streaming 组 件 ， 都 是 以 事件 而 不 是 最 小 批 次 为 单位 处 理 流 数据 
HJ. Spark Streaming 文 持 从 Kafka、Flume、Twitter、ZeroMQ、Kinesis 和 
TCP/IP sockets 接 收 数据 。 





4. MLlib Machine Learning Library 


Spark 中 还 包含 一 个 机 器 学 习 程序 库 ， 叫 做 MLlib。MLlib 提 供 了 很 
多 机 器 学 习 算 法 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 等 ， 还 支持 模型 评 
估 、 数 据 导入 等 额外 的 功能 。MLlib 还 提供 了 一 些 更 底层 的 机 器 学 习 原 
语 ， 如 一 个 通用 的 梯度 下 降 算法 等 。 所 有 这 些 方法 都 被 设计 为 可 以 在 集 
群 上 轻松 伸缩 的 架构 。 


5. GraphX 


GraphX 是 Sparkk 上 的 图 (如 社交 网 络 的 朋友 关系 图 ) 处 理 框架 。 可 
以 进行 并 行 的 图 计算 。 与 Spark Streaming 和 Spark SQL 类 似 ，GraphX 也 
扩展 了 Spark 的 RDD API， 能 用 来 创建 一 个 顶点 和 边 都 包含 任意 属性 的 
有 问 图 。GraphX 还 文 持 针 对 图 的 各 种 操作 ， 比 如 进行 图 分 割 的 subgraph 
和 操作 所 有 顶点 的 mapVertices， 以 及 一 些 常用 的 图 算法 ， 如 PageRank 和 
三 角 计 算 等 。 由 于 RDD 是 只 读 的 ， 因 此 GraphX 不 适合 需要 更 新 图 的 场 
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3.5 ”Hadoop 与 数据 仓库 


传统 数据 仓库 一 般 建 立 在 Oracle、MySQL 这 样 的 关系 数据 库 系 统 之 
上 。 关 系数 据 库 主要 的 问题 是 不 好 扩展 ， 或 者 说 扩展 的 成 本 非常 高 ， 
此 面 对 当 前 4Vs 的 大 数据 问题 时 显得 能 力 不 足 ， 而 这 时 就 显示 出 Hadoop 
的 威力 。Hadoop 和 生态 圈 最 大 的 吸引 力 是 它 有 能 力 处 理 非常 大 的 数据 量 。 
在 大 多 数 情况 下 ，Hadoop 生 态 圈 的 工具 能 够 比 关 系数 据 库 人 处理 更 多 的 数 
据 ， 因 为 数据 和 计算 都 是 分 布 式 的 。 


还 用 介绍 MapReduce 时 的 那个 例子 进行 说 明 : 在 一 个 10TB 的 Web 日 
志文 件 中 ， 找 出 单词 正 RROR 的 个 数 。 解 决 这 个 问题 最 直接 的 方法 就 是 
查找 日 志文 件 中 的 每 个 单词 ， 并 对 单词 下 RROR’ 的 出 现 进行 计数 。 做 这 
样 的 计算 会 将 整个 数据 集 读 入 内 存 。 作 为 讨论 的 基础 ， 我 们 假设 现代 系 
统 从 人 磁盘 到 内 存 的 数据 传输 速率 为 每 秒 100MB， 这 意味 着 在 单一 计算 机 
上 要 将 10TB 数 据 读 入 内 存 需 要 27.7 个 小 时 。 如 果 我 们 把 数据 分 散 到 10 台 
计算 机 上 ， 每 台 计 算 机 只 需要 处 理 1TB 的 数据 。 它 们 彼此 独立 ， 可 以 对 
自己 的 数据 分 片 中 出 现 的 下 RROR’ 计 数 ， 最 后 再 将 每 台 计 算 机 的 计数 相 
加 。 在 此 场景 下 ， 每 台 计 算 机 需要 2.7 个 小 时 读 取 1TB 数 据 。 因 为 所 有 计 
算 机 并 行 工作 ， 所 以 总 的 时 间 也 近似 是 2.7 个 小 时 。 这 种 方式 即 为 线性 
扩展 一 一 可 以 通过 简单 地 增加 所 使 用 的 计算 机 数量 来 减少 处 理 数 据 花费 
的 时 间 。 以 此 类 推 ， 如 果 我 们 使 用 100 台 计算 机 ， 做 这 个 任务 只 需 0.27 
个 小 时 。Hadoop 背 后 的 核心 观点 是 : 如 果 一 个 计算 可 以 被 分 成 小 的 部 
分 ， 每 一 部 分 工作 在 独立 的 数据 子 集 上 ， 并 且 计 算 的 全 局 结果 是 独立 部 
分 结果 的 联合 ， 那 么 此 计算 束 可 以 分 布 在 多 人 台 计 算 机 中 并 行 执行 。 

分 布 式 计算 可 以 用 来 解决 大 数据 问题 ， 那 么 关系 数据 库 能 否 末 用 分 
布 式 呢 ? 答案 是 无 论 实 际 中 还 是 理论 上 ， 关 系数 据 库 都 难以 在 大 规模 集 
群 的 很 多 台 机 器 上 并 行 执 行 。 在 本 市 ， 先 看 一 下 关系 数据 库 可 扩展 性 的 
不 足 ， 然 后 了 解 相关 理论 ， 最 后 说 明 使 用 Hadoop 创 建 传统 数据 仓库 的 可 



































行 性 ， 及 其 生态 圈 中 与 数据 仓库 相关 的 工具 组 件 。 
3.5.1. 关系 数据 库 的 可 扩展 性 眶 颈 


关系 数据 库 的 可 扩展 性 一 直 是 数据 库 广 商 和 用 户 最 关注 的 问题 。 从 
较 高 的 层次 看 ， 可 扩展 性 就 是 能 够 通过 增加 资源 来 提升 容量 ， 并 保持 系 
统 性 能 的 能 力 。 可 扩展 性 可 分 为 向 上 扩展 〈Scale up) 和 问 外 扩展 


(Scale out) 。 


向 上 扩展 有 时 也 称 为 垂直 扩展 ， 它 意味 着 采用 性 能 更 强劲 的 硬件 设 
备 ， 比 如 通过 增加 CPU、 内 存 、 磁 盘 等 方式 提高 处 理 能 力 ， 或 者 购买 小 
型 机 或 而 问 存 储 来 保证 数据 库 系统 的 性 能 和 可 用 性 。 无 论 怎样 ， 向 上 扩 
展 还 是 一 种 集中 式 的 架构 。 也 惑 是 说 ， 数 据 库 系统 运行 在 一 台 硬 件 设备 
上 ， 要 做 的 就 是 不 断 提高 这 台 设 备 的 配置 以 加 强 性 能 。 

四 上 扩展 最 大 的 好 处 就 是 实现 简单 ， 降 低 开 友人 员 和 维护 人 员 的 技 
能 门槛 。 很 明显 单 台 服务 器 比 多 台 服 务 器 更 容易 开 及 ， 因 为 无 须 基 心 多 
台 机 顺 间 的 数据 一 致 性 或 者 谁 主 谁 从 等 问题 ， 能 显著 节省 开发 成 本 。 同 
时 单机 上 的 数据 备份 与 恢复 等 维护 工作 相对 简单 ， 也 不 用 考虑 数据 复制 
等 问题 ， 减 轻 了 系统 维护 的 工作 。 但 向 上 扩展 存在 不 可 途 越 的 障碍 ， 当 
应 用 变 得 非常 庞大 ， 同 上 扩展 策略 惑 无 能 为 力 了 。 首 先是 成 本 问题 ， 特 
殊 配 置 的 硬件 往往 非常 昂贵 。 再 有 同上 扩展 不 是 无 限制 的 ， 即 使 最 强大 
的 单 台 计 算 机 ， 其 处 理 能 力也 有 限制 。 当 应 用 到 达 一 定 程度 ， 向 上 扩展 
不 再 可 行 ， 此 时 就 需要 癌 外 扩展 。 


回 外 扩展 有 时 也 称 为 横 同 扩展 或 水 平 扩 展 ， 由 多 台 廉 价 的 通用 服务 
器 实现 分 布 式 计算 ,分担 某 一 应 用 的 负载 。 关 系数 据 库 的 回 外 扩展 主要 
有 Shared Disk 和 Shared Nothing 两 种 实现 方式 。Shared Disk 的 各 个 处 理 单 
元 使 用 自己 的 私有 CPU 和 内 存 ， 共 享 磁 盘 系 统 ， 上 典型 的 代表 是 Oracle 
RAC. Shared ”Nothing 的 各 个 处 理 单 元 都 有 自己 私有 的 CPU、 内 存 和 硬 
盘 ， 不 存在 共享 资源 ， 各 处 理 单元 之 间 通 过 协议 通信 ， 并 行 处 理 和 扩展 















































B6 7J Hf, MySQL Fabric 采 用 的 就 是 Shared Nothing 架 构 。 


1. Oracle RAC 





Oracle RAC 是 Oracle 的 集群 解决 方案 。 其 架构 的 最 大 特点 是 共享 存 
储 架 构 (Shared disk) ， 整 个 RAC 集 群 建立 在 一 个 共享 的 存储 设备 之 
上 ， 节 点 之 间 采 用 高 速 网 络 互 连 。Oracle ”RAC 提供 了 较 好 的 高 可 用 特 
性 ， 比 如 负载 均衡 和 透明 应 用 切换 。 其 最 大 优势 在 于 对 应 用 完全 透明 ， 
应 用 无 须 修改 便 可 以 从 单机 数据 库 切换 到 RAC 集 群 。 


但 是 ，RAC 的 扩展 能 力 有 限 ，32 个 节点 的 RAC 已 算 非 常 庞 大 了 。 随 
着 节点 数 的 不 断 增 加 ， 节 点 间 通 信 的 成 本 也 会 随 之 增加 ， 当 到 达 某 个 限 
度 时 ， 增 加 节点 不 会 再 带 来 性 能 上 的 提高 ， 甚 至 可 能 造成 性 能 下 降 。 这 
个 问题 的 主要 原因 是 Oracle RAC 对 应 用 透明 ， 应 用 可 以 连接 集群 中 的 任 
意 节点 进行 处 理 ， 当 不 同 节点 上 的 应 用 争 用 资源 时 ，RAC 节 点 间 的 通信 
开销 会 严重 影响 集群 的 处 理 能 


RAC 的 为 外 一 个 问题 是 ， 整 个 集群 都 依赖 于 后 层 的 共 圣 存储 ， 因 此 
共有 至 存储 的 W/O 能 力 和 可 用 性 决定 了 整个 集群 可 以 提供 的 能 














2. MySQL Fabric 


MySQL ”Fabric 染 构 为 MySQL 提 供 了 高 可 用 和 横向 扩展 的 特性 。 在 
实际 部 和 获 中 ， 可 以 单独 使 用 高 可 用 或 横向 扩展 ， 也 可 以 同时 启用 这 两 个 
特性 。 

MySQL ”Fabric 在 MySQL 复 制 上 增加 了 一 个 管理 和 监控 层 ， 它 和 一 
组 MySQL Fabricaware 连 接 如 一起， 把 写 和 一 致 性 读 操 作 路 由 到 当前 的 
主 服 务 器 。MySQL Fabric 有 一 个 HA 组 的 概念 。HA 组 是 由 两 个 或 两 个 以 
上 的 MySQL 服 务 器 组 成 的 服务 器 池 。 在 任 一 时 间 点 ，HA 组 中 有 一 个 主 
服务 器 ， 其 他 的 都 是 从 服务 器 。HA 组 的 作用 是 确保 该 组 中 的 数据 总 是 


可 访问 的 。MySQL 通 过 把 数据 复制 多 份 提供 数据 安全 性 。 


当 单 个 MySQL 服 务 器 〈 或 HA 组 ) 的 写 性 能 达到 极限 时 ， 可 以 使 用 
Fabric 把 数据 分 布 到 多 个 MySQL 服 务 器 组 。 注 意 这 里 说 的 组 可 以 是 单一 
服务 器 ， 也 可 以 是 HA 组 。 管 理 员 通过 建立 一 个 分 片 映 射 ， 定 义 数 据 如 
何在 多 个 服务 中 分 片 。 一 个 分 片 映射 作用 于 一 个 或 多 个 表 ， 由 管理 员 指 
定 每 个 表 上 的 哪些 列 作为 分 片 键 ，MySQL Fabric 使 用 分 片 键 计算 一 个 表 
的 特定 行 应 该 存在 于 哪个 分 片上 。 当 多 个 表 使 用 相同 的 映射 和 分 片 键 
时 ， 这 些 表 上 包含 相同 列 值 〈《 用 于 分 片 的 列 ) 的 数据 行将 存在 于 同一 个 
分 片 。 单 一 事务 可 以 访问 一 个 分 片 中 的 所 有 数据 。 目 前 Fabric 提 供 两 种 
用 分 片 键 计 算 分 片 号 的 方法 : HASH 和 RANGE。 

HASH: 在 分 厂 键 上 执行 一 个 哈 希 函数 生成 分 片 写 。 如 果 作 为 分 片 
键 的 列 只 有 很 少 的 重复 值 ， 那 么 哈 希 函数 的 结果 会 平均 分 布 在 多 个 分 片 
Es 


RANGE: 管理 员 显 式 定义 分 片 键 的 取 值 范围 和 分 片 之 间 的 映射 关 
系 。 这 可 以 尽 可 能 让 用 户 控制 数据 分 片 ， 并 确定 哪 一 行 被 分 配 到 哪 一 个 
分 片 。 

应 用 程序 访问 分 片 的 数据 库 时 ， 需 要 设置 一 个 连接 属性 指定 分 片 
键 。Fabric 连 接 器 会 应 用 正确 的 范围 或 哈 希 映射 ， 并 将 事务 路 由 到 正确 
的 分 片 。 当 需要 更 多 的 分 片 时 ，MySQL Fabric 可 以 把 现 有 的 一 个 分 片 分 
成 两 个 ， 同 时 修改 状态 存储 和 连接 器 中 缓存 的 路 由 数据 。 类 似 地 ， 一 个 
分 片 可 以 从 一 个 HA 组 迁移 到 另 一 个 。 

注意 单一 的 事务 或 查询 只 能 访问 一 个 分 片 ， 所 以 基于 对 数据 的 理解 
和 应 用 的 访问 模式 选择 一 个 分 片 键 是 非常 重要 的 ， 并 不 是 对 所 有 表 分 片 
都 有 意义 。 对 于 当前 不 能 交叉 分 片 查 询 的 限制 ， 将 某 些小 表 的 全 部 数据 
存储 到 每 一 个 组 中 可 能 会 更 好 。 这 些 全 局 表 被 写 入 到 * 全 局 组 ,'， 表 中 数 
据 的 任何 改变 都 会 自动 复制 到 所 有 其 他 非 全 局 组 中 。 全 局 组 中 模式 〈 结 
构 ) 的 改变 也 会 复制 到 其 他 非 全 局 组 中 以 保证 一 致 性 。 

















图 3-13 所 示 的 是 一 个 具有 高 可 用 和 数据 分 片 特 性 的 MySQL Fabric 架 
构 ， 图 中 共有 10 个 MySQL 实 例 ， 其 中 一 个 运行 连接 器 ， 男 外 九 个 是 工 
作 节 点 。 每 行 的 三 个 实例 是 一 个 HA 组 ， 每 列 的 三 个 实例 是 一 个 数据 分 
Fre 





连接 器 


分 片 1 分 片 2 分 片 3 


mysal: 3327 mysal: 3327 mysal: 3327 
mysal: 3328 mysal: 3328 mysal: 3328 


图 3-13 ”具有 高 可 用 和 数据 分 片 特性 的 MySQL Fabric 架 构 





























3.5.2 ”CAP 理 论 





我 们 已 经 看 到 ， 关 系数 据 库 的 可 扩展 性 存在 很 大 的 局 限 。 虽 然 这 种 
情况 随 着 分 布 式 数据 库 技 术 的 出 现 而 有 所 缓解 ， 但 还 是 无 法 像 Hadoop 一 
样 轻松 在 上 干 个 节点 上 进行 分 布 式 计 算 。 究 其 原因 ， 束 不 得 不 提 到 CAP 
理论 。 

CAP 理 论 指 的 是 任何 一 个 分 布 式 计算 系统 都 不 能 同时 保证 如 下 三 
LE 





e Consistency (SZE) : 所 有 市 点 上 的 数据 时 刻 保持 同步 。 
e Availability (THE) : 每 个 请 求 都 能 接收 到 一 个 啊 应 ， 无 论 啊 
应 成 功 或 失败 。 


e Partition tolerance 〈 分 区 容错 性 ) : 系统 应 该 能 持续 提供 服务 ， 
无 论 网 络 中 的 任何 分 区 失效 。 


换 句 话说 ，CAP 理 论 意 味 着 在 一 个 分 布 式 环境 下 ， 一 人 臻 性 和 可 用 性 
只 能 取 其 一 。 这 个 观点 是 计算 机 科学 家 Eric ”Brewer 在 1998 年 最 先 提出 
的 ，2002 年 Lynch 与 其 他 人 证 明了 Brewer 的 推测 ， 从 而 把 CAP 上 升 为 一 
个 定理 。 


高 可 用 、 数 据 一 致 是 很 多 系统 设计 的 目标 ， 但 是 分 区 义 是 不 可 避免 
的 。 





e CA without P: 如 果 不 要 求 P〈 不 允许 分 区 ) ， 则 C“〈 强 一 致 性 ) 
FIA CHIE) 是 可 以 保证 的 。 但 其 实 分 区 不 是 想 不 想 的 问题 ， 
而 是 终 会 存在 。 因 此 CA 的 系统 更 多 的 是 允许 分 区 后 各 子 系统 依 
然 保 持 CA。 传 统 关 系 型 数据 库 大 都 是 这 种 模式 。 

e CP without A: WR PERA JH) ， 相 当 于 每 个 请 求 都 需要 
在 节点 之 间 强 一 致 ， 而 P《〈 分 区 ) 会 导致 同步 时 间 无 限 延 长 ， 如 
此 CP 也 是 可 以 保证 的 。 很 多 传统 的 数据 库 分 布 式 事务 都 属于 这 
种 模式 。 

e AP wihtout C: 要 高 可 用 并 人 允许 分 区 ， 则 需 放弃 一 致 性 。 一 旦 分 
区 发 生 ， 节 点 之 间 可 能 会 失去 联系 ， 为 了 高 可 用 ， 每 个 节点 只 能 
用 本 地 数据 提供 服务 ， 而 这 样 会 导致 全 局 数据 的 不 一 致 性 。 现 在 
众多 的 NoSQL 都 属于 此 类 。 


对 于 CAP 理 论 也 有 一 些 不 同 的 声音 ， 有 一 种 观点 认为 应 该 构建 不 可 
变 模 型 避免 CAP 的 复 林 性 。CAP 的 困境 在 于 允许 数据 变更 ， 每 次 变更 束 
得 数据 同步 ， 保 持 一 致 性 ， 这 样 系统 就 变 得 很 复杂 。 然 而 对 于 数据 仓库 
这 样 的 应 用 来 说 ， 数 据 就 是 客观 存在 的 ， 不 可 变 ， 只 能 增加 和 奏 询 。 传 
统 的 CURD (创建 、 更 新 、 读 取 、 删 除 〉 变 为 CR。 这 个 概念 与 数据 仓库 
的 非 易 失 性 非常 吻合 ， 任 何 的 变更 都 是 增加 记录 。 通 过 对 所 有 记录 的 操 


所 

















作 进 行 合 并 ， 从 而 得 到 最 终 记 录 。 因 此 ， 任 何 的 数据 模型 都 应 该 抽象 
7j: Query-Function(all data)， 任 何 的 数据 处 理 都 是 查询 ， 查 询 是 对 全 体 
数据 施加 了 某 个 函数 的 结果 。 这 个 定义 清晰 简单 ， 完 全 抛弃 了 CAP 那 些 
烦琐 而 又 模糊 的 语义 。 因 为 每 次 操作 都 是 对 所 有 数据 进行 全 局 计算 ， 也 
就 没有 了 一 致 性 问题 。 

Hadoop 正 是 这 样 的 系统 ! Hadoop 的 HDFS 只 文 持 数据 增加 ， 其 数据 
复制 策略 解决 了 数据 可 用 性 问题 ， 而 Mapeduce 进 行 全 局 计算 ， 完 美 地 符 
合 了 对 数据 处 理 的 期 望 。 实 际 上 ， 在 Hadoop 的 Hive 上 已 经 可 以 进行 行 级 
别 的 增删 改 操作 (本 书 第 6 章 建 立 数 据 仓 库 示 例 模 型 中 将 会 详细 介 
绍 ) ， 甚 至 在 Hadoop 中 出 现 了 满足 事务 处 理 的 数据 库 产 品 ， 如 


Trafodion. 


除 Hadoop 和 一 些 类 似 的 分 布 式 计算 框架 外 ， 有 没有 可 能 实现 一 套 分 
布 式 数 据 库 集群 ， 既 保证 可 用 性 和 一 致 性 ， 又 可 以 提供 很 好 的 扩展 能 
We? 目前 ， 已 经 有 很 多 分 布 式 数据 库 产 品 ， 但 大 部 分 是 面向 决策 文 持 类 
型 的 应 用 ， 因 为 相 比 较 事 务 处 理应 用 ， 决 策 文 持 应 用 更 容易 做 到 分 布 式 
扩展 ， 比 如 基于 PostgreSQL 发 展 的 Greenplum， 就 很 好 地 解决 了 可 用 性 
和 扩展 性 的 问题 ， 并 且 提 供 了 强大 的 并 行 计 算 能 力 ， 现 在 该 产品 已 经 成 
为 Apache HAWQ 孵 化 项 目 。 

2012 年 ，Lynch 在 证 明 CAP 理 论 十 年 后 重 写 了 论文 ， 缩 小 CAP 适 用 
的 定义 ， 消 除 质疑 的 场景 ， 展 示 了 CAP 广 阔 的 研究 成 果 ， 并 顺便 暗示 
CAP 定 理 依旧 正确 。CAP 理 论 从 出 现 到 被 证 明 ， 再 到 饱 受 质疑 和 重新 定 
义 ， 我 们 应 该 如 何 看 待 它 呢 ? 肯 先 肯定 的 是 ，CAP 理 论 并 不 是 神话 ， 它 
并 不 适合 再 作为 一 个 适应 任何 场景 的 定理 ， 它 的 正确 性 更 加 适合 基于 原 
子 读 写 的 NoSQL 场 景 。 其次， 无 论 如 何 C、A、P 这 三 个 概念 始终 存在 于 
任何 分 布 式 系统 ， 只 是 不 同 的 模型 会 对 其 有 不 同 的 呈现 ， 可 能 某 些 场景 
对 三 者 之 间 的 关系 敏感 ， 而 男 一 些 不 敏感 。 最 后 ， 作 为 开发 者 ， 一 方面 
不 要 将 精力 浪费 在 如 何 设计 能 满足 三 者 的 完美 分 布 式 系统 ， 而 是 应 该 进 
































ITRE. FI ATA» A MBXCRSDST IRA FEE, CHER. Dita 
等 ， 都 是 需要 考虑 的 问题 ， 而 不 仪 是 CAP 三 者 。 


3.5.3 Hadoop 数 据 仓库 工具 


通过 前 面 的 描述 可 知 ， 当 数据 仓库 应 用 的 规模 和 数据 量 大 到 一 定 程 
度 ， 关 系数 据 库 已 经 不 再 适用 ， 此 时 Hadoop 是 开发 数据 仓库 项 目的 可 选 
方案 之 一 。 然 而 Hadoop 及 其 生态 圈 工 具 所 提供 的 功能 ， 能 否 满足 我 们 方 
便 、 高 效 地 开发 数据 仓库 的 要 求 呢 ? 回忆 一 下 图 1-1 所 示 的 数据 仓库 以 
构 ， 一 个 常规 数据 仓库 由 两 类 存储 和 6 个 主要 功能 模块 组 成 。 下 面 我 们 
就 介绍 与 这 8 个 部 分 对 应 的 Hadoop 相 关 组 件 或 产品 。 











1. RDS 和 TDS 





RDS 是 原始 数据 存储 ， 其 数据 是 从 操作 型 系统 抽取 而 来 。 它 有 两 个 
作用 ， 一 是 充当 操作 型 系统 和 数据 仓库 之 间 的 过 渡 区 ， 二 是 作为 细 市 数 
据 查 询 的 数据 源 。TDS 是 转换 后 的 数据 存储 ， 也 就 是 数据 仓 奋 ， 用 于 后 
续 的 多 维 分 析 或 即席 查询 。 


这 两 类 数据 逻辑 上 分 开 ， 物 理 上 可 以 通过 在 Hive 上 建立 两 个 不 同 的 
数据 库 来 实现 ， 最 终 押 有 数据 都 被 分 布 存 储 到 HDFS 上 。 


2. 抽取 过 程 


这 里 的 抽取 过 程 指 的 是 把 数据 从 操作 型 数据 源 抽取 到 RDS 的 过 程 ， 
这 个 过 程 可 能 会 有 一 些 数据 集成 的 操作 ， 但 不 会 做 数据 转换 、 清 洗 、 格 
起 化 二 LAE 

Hadoop 生 态 圈 中 的 主要 数据 摄取 工具 是 Ssqdoop 和 Flume。Sqoop 被 设 
计 成 文 持 在 关系 数据 库 和 Hadoop 之 间 传 输 数据 ， 而 Flume 被 设计 成 基于 
流 的 数据 捕获 ， 主 要 是 从 日 志文 件 中 获取 数据 。 使 用 这 两 个 工具 可 以 完 


成 数据 仓库 的 抽取 。 在 第 7 章 中 将 详细 介绍 使 用 Sqoop 抽 取 数 据 的 实现 过 
T£. 

如 果 数 据 源 是 普通 的 文本 和 CSV 文 件 ， 抽 取 过 程 将 更 加 简单 ， 只 需 
用 操作 系统 的 scp 或 fp 命令 将 文件 拉 取 到 Hadoop 集 群 的 任 一 节点 ， 然 后 
使 用 HDFS 的 put 命 令 将 已 在 本 地 的 文件 上 传 到 HDFS， 或 者 使 用 Hive 的 
load data 将 文件 装载 进 表 里 就 可 以 了 。 


3. FRG RATE 


转换 与 装载 过 程 是 将 数据 从 RDS 迁 移 到 TDS 的 过 程 ， 期 间 会 对 数据 
进行 一 系列 的 转换 和 处 理 。 经 过 了 数据 抽取 步 又， 此 时 数据 已 经 在 Hive 
表 中 了 ， 因 此 Hive 可 以 用 于 转换 和 装载 。 

Hive 实 际 上 是 在 MapReduce 之 上 封装 了 一 层 SQL 解 释 器 ， 这 样 可 以 
用 类 SQL 语 言 书 写 复 杂 的 MapReduce 作 业 。Hive 不 但 提供 了 丰富 的 数据 
查询 功能 和 分 析 函 数 ， 还 可 以 在 某 些 限 制 下 进行 数据 的 行 级 更 新 ， 因 此 
支持 SCD1 (渐变 维 的 一 种 处 理 类 型 )。 在 第 8 章 中 将 详细 介绍 如 何 使 用 
Hive 进 行 数据 的 转换 与 装载 。 


4. 过 程 管理 和 目 动 化 调度 











ETL 过 程 自动 化 是 数据 仓库 成 功 的 重要 衡量 标准 ， 也 是 系统 易 用 性 
的 关键 。 

Hadoop 生 态 圈 中 的 主要 管理 工具 是 Falcon。Falcon 把 自己 看 作 是 数 
据 治 理工 具 ， 能 让 用 户 建立 定义 好 的 ETL 流 水 线 。 除 Falcon 外 ， 还 有 一 
个 叫做 Oozie 的 工具 ， 它 是 一 个 Hadoop 的 工作 流 调度 系统 ， 可 以 使 用 它 
将 ETL 过 程 封装 进 工 作 流 自动 执行 。 在 第 9 章 中 将 详细 介绍 如 何 使 用 
Oozie 实 现 定期 自动 执行 ETL 作 业 。 





5. 数据 目录 


数据 目录 存储 的 是 数据 仓库 的 元 数据 ， 主 要 是 描述 数据 属性 的 信 
恩 ， 用 来 支持 如 指示 存储 位 置 、 历 史 数 据 、 资 源 伍 找 、 文 件 记 录 等 功 











Hadoop 生 态 圈 中 主要 的 数据 目录 工具 是 HCatalog。HCatalog 是 
Hadoop 上 的 一 个 表 和 存储 管理 层 。 使 用 不 同 数据 处 理工 具 《〈 如 Pig、 
MapReduce) 的 用 户 ， 通 过 HCatalog 可 以 更 加 容易 地 读 写 集群 中 的 数 
据 。HCatalog 引 入 “ 表 ” 的 抽象 ， 把 文件 看 做 数据 集 。 它 展现 给 用 户 的 是 
一 个 HDFS 上 数据 的 关系 视图 ， 这 样 用 户 不 必 关 心 数据 存放 在 哪里 或 者 
数据 格式 是 什么 等 问题 ， 就 可 以 轻松 知道 系统 中 有 哪些 表 ， 表 中 都 包含 
TA 


HCatalog 默 认 文 持 多 种 文件 格式 的 读 写 ， 如 RCFile、 
SequenceFiles, ORC files. text files、CSV、JSON 等 。 





6. 查询 引擎 和 SQL 层 


查询 引擎 和 SQL 层 主要 的 职责 是 查询 和 分 析 数 据 仓库 里 的 数据 。 由 
于 最 终 用 户 经 常 需要 进行 交互 式 的 即席 查询 ， 并 随时 动态 改变 和 组 合 他 
们 的 得 询 条 件 ， 因 此 要 求 得 询 引擎 具有 很 高 的 得 询 性 能 和 较 短 的 响应 时 
间 。 

Hadoop 生 态 圈 中 的 主要 SQL 碍 询 引 擎 有 基于 MapReduce 的 Hive、 基 
于 RDD 的 SparkSQL 和 Cloudera 公 司 的 Impala。Hive 可 以 在 四 种 主流 计算 
框架 的 三 种 ， 分 别 是 Tez、MapReduce 和 Spark (还 有 一 种 是 Storm) EF 
行 类 SQL 查 询 。SparkSQL 是 Hadoop 中 男 一 个 著名 的 SQL 引 擎 ， 它 实际 上 
是 一 个 Scala 程 序 语言 的 子 集 。 正 如 SparkSQL 这 个 名 字 所 暗示 的 ， 它 以 
Spark 作 为 底层 计算 框架 。Impala 是 Cloudera 公 司 的 查询 系统 ， 它 提供 
SQL 语义 ， 最 大 特点 是 速度 快 ， 主 要 用 于 OLAP。 在 第 12 章 中 将 详细 介 























绍 用 这 几 种 SQL 引擎 进行 数据 分 析 ， 并 对 比 它们 的 性 能 差异 。 除 此 之 
外 ， 第 12 章 中 还 会 镜 单 摘 述 一 球 名 为 Kylin 的 OLAP 系 统 ， 它 是 首 个 中 国 
团队 开发 的 Apache 顶 级 项 目 ， 其 但 询 性 能 表现 优 和 腊 。 


7. 用 户 界 面 


数据 分 析 的 结果 最 终 要 以 业务 语言 和 形象 化 的 方式 展现 给 用 户 ， 只 
有 这 样 才能 取得 用 户 对 数据 仓库 的 认可 和 信任 。 因 此 具有 民 好 体验 的 用 
户 界 面 是 必 不 可 少 的。 数据 仓库 的 最 终 用 户 界面 通常 是 一 个 BI 仪 表盘 或 
类 似 的 一 个 数据 可 视 化 工具 提供 的 浏览 右 页 面 。 


Hadoop 生 态 圈 中 比较 知名 的 数据 可 视 化 工具 是 Hue 和 Zeppelin。Hnue 
是 一 个 开源 的 Hadoop UI 系 统 ， 最 早 是 由 Cloudera Desktop 演 化 而 来 ， 它 
是 基于 Python Web 框 架 Django 实 现 的 。 通 过 使 用 Hue 我 们 可 以 在 浏览 器 
羔 的 Web 控 制 台 上 与 Hadoop 集 群 进行 交互 来 分 析 人 处 理 数据 ， 还 可 以 用 图 
形 化 的 方式 定义 工作 流 。Hue 默 认 文 持 的 数据 源 有 Hive 和 Impala。 
Zeppelin 提 供 了 Web 版 的 notebook， 用 于 做 数据 分 析 和 可 视 化 。Zeppelin 
默认 只 文 持 SparkSQL。 


可 以 看 到 ， 普 通 数据 仓库 的 8 个 组 成 部 分 都 有 相对 应 的 Hadoop 组 件 
作为 文 撑 。Hadoop 生 态 圈 中 众多 工具 提供 的 功能 ， 完 全 可 以 满足 创建 伟 
统 数据 仓库 的 需要 。 使 用 Hadoop 建 立 数据 仓库 不 仅 是 必要 的 ， 而 且 是 充 
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3.6 ”小结 


(1) 现在 普 衣 认可 的 大 数据 是 具有 4V， 妈 Volume、Velocity、 
Variety、Veracity 特 征 的 数据 集合 ， 用 中 文人 简单 描述 就 是 大 、 快 、 多 、 
真 。 


(2) Hadoop 是 一 个 分 布 式 系 统 基 础 架构 ， 它 包括 四 个 基本 模块 : 
(1) Hadoop 基 础 功能 库 ， 文 持 其 他 Hadoop 模 块 的 通用 程序 包 。 (2) 
HDFS， 一 个 分 布 式 文件 系统 ， 能 够 以 高 吞吐 量 访问 应 用 的 数据 。 (3) 
YARN， 一 个 作业 调度 和 资源 管理 框架 。 (4) MapReduce， 一 个 基于 
YARN 的 大 数据 并 行 处 理 程序 。 


(3) Spark 是 男 一 个 流行 的 分 布 式 计算 框架 ， 其 基本 数据 结构 是 
RDD， 它 提供 一 种 分 布 式 共享 内 存 的 受 限 形式 。 可 以 利用 RDD 方 便 地 
实现 迭代 算法 ， 相 对 于 MapReduce 的 实现 ，Spark 应 用 的 延迟 可 以 降低 几 
个 数量 级 。Spark RDD API 文 持 的 语言 包括 Java、Python、Scala 和 有 R。 


(4) CAP 理 论 指 的 是 任何 一 个 分 布 式 计算 系统 都 不 能 同时 保证 数 
据 一 致 性 、 可 用 性 和 分 区 容错 性 。 这 也 是 传统 关系 型 数据 库 难 以 扩展 的 
根本 原因 。 

(5) Hadoop 生 态 圈 中 众多 工具 提供 的 功能 ， 完 全 可 以 满足 创建 传 
统 数据 仓库 的 需要 。 使 用 Hadoop 建 立 数据 仓库 不 仅 是 必要 的 ， 而 且 是 充 


分 的 。 
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在 前 三 章 里 介绍 了 数据 仓库 、Hadoop 及 其 生态 圈 的 基本 概念 ， 内 容 
偏重 于 理论 。 从 本 章 开始 ， 让 我 们 进入 实践 阶段 。 工 欲 善 其 事 ， 必 先 利 
其 器 。 既 然 我 们 要 用 Hadoop 建 立 数 据 仓 库 ， 那 么 先 要 做 的 就 是 安装 
Hadoop。 

本 章 首先 介绍 三 种 常见 的 Hadoop 发 行 版 本 ， 之 后 说 明 Apache 
Hadoop 的 安装 过 程 。 为 了 解决 NameNode 的 扩展 性 问题 ，Hadoop-0.23.0 
新 增 了 HDFS Federation 特 性 。 本 章 将 介绍 HDFS Federation 及 其 具体 配 
置 。 在 本 章 最 后 ， 将 会 详细 说 明 CDH 的 离线 安装 步骤 ， 本 书后 面 的 实践 
部 分 都 是 在 CDH 5.7.0 系 统 之 上 完成 的 。 








41 Hadoop 主 要 发 行 版 本 


主流 的 Hadoop 生 态 圈 除了 前 面 介 绍 的 Apache ”Hadoop 以 外 ， 还 有 
Cloudera、HortonWorks、MapR 三 个 不 同 版 本 。 这 三 个 版 本 既 有 相似 之 
处 ， 又 有 各 自 的 特点 。 它 们 都 提供 整合 后 的 企业 级 Hadoop 发 行 版 本 ， 提 
高 整体 的 部 署 效 率 。 三 者 都 提供 了 可 以 自由 下 载 的 免费 版 本 ， 但 
Cloudera 和 MapR 还 有 收费 版 本 。 它 们 都 建立 了 上 自己 的 社区 ， 帮 助 用 户 解 
决 面临 的 问题 ， 以 满足 商业 应 用 的 需求 ， 在 稳定 性 与 安全 性 方面 也 都 经 
受 住 了 时 间 的 考验 。 











4.1.1 Cloudera Distribution for Hadoop (CDH) 


Cloudera 是 第 一 个 商业 Hadoop 发 行 版 本 ， 也 是 Hadoop 用 户 最 为 熟悉 


HAMAS, Hadoop t A | F EK REN voee, KEIER LA 5eXX 
i, Cloudera Manager 是 一 个 管理 控制 台 ， 它 包括 丰富 的 用 户 界 面 ， 能 
够 在 一 个 框架 内 清晰 地 显示 Hadoop 及 其 各 项 服务 的 所 有 信息 ， 非 常 便于 
用 户 使 用 。 专 有 的 Cloudera Management £ fT Hadoop 2z 48 E El 5) 
化 ， 并 为 用 户 提 供 大 量 的 增强 功能 ， 如 实时 显示 市 点 数量 、 自 动 部 团 服 


务 等 。 


CDH 的 特性 如 下 : 

















e 能 够 在 Hadoop 和 集群 中 自由 添加 或 删除 服务 。 
e 文 持 多 集群 管理 。 
e 提供 市 点 模板 。 人 允许 在 Hadoop 集 群 中 建立 多 组 节点 ， 各 组 市 点 可 


以 有 不 同 的 配置 。 
e 依赖 于 HDFS 的 DataNode、NameNode 架 构 ， 将 数据 处 理 与 元 数据 
保存 分 离 。 


CDH 的 优点 在 于 提供 了 包含 大 量 工具 和 特性 的 用 户 友好 界面 ， 缺 点 
是 相对 于 其 他 版 本 的 Hadoop， 性 能 不 是 很 好 ， 速 度 较 慢 。 





4.1.2  Hortonworks Data Platform (HDP) 


Hortonworks 公 司 是 由 Yahoo 的 工程 师 创 建 的 ， 它 为 Hadoop 提 供 了 一 
种 “service only” 的 分 发 模型 。 有 别 于 另外 两 种 Hadoop 版 本 ，Hortonworks 
是 一 个 可 以 自由 使 用 的 开放 式 企业 级 数据 平台 。 其 Hadoop 发 行 版 本 即 
HDP， 可 以 被 自由 下 载 并 整合 到 各 种 应 用 当中 。 


Hortonworks 是 第 一 个 提供 基于 Hadoop 2.0 版 产品 的 厂商 ， 也 是 目前 
唯一 支持 Windows 平 台 的 Hadoop 分 发 版 本 。 用 户 可 以 通过 HDInsight 服 
务 ， 在 Windows Azure 上 部 署 Hadoop 集 群 。 


HDP 的 特性 如 下 : 





。 HDP 通 过 其 新 的 Stinger 项 目 ， 使 Hive 的 执行 速度 更 快 。 
e HDP 承 诺 是 一 个 Hadoop 的 分 文 版 本 ， 对 专 有 代码 的 依赖 极 低 ， 避 
wI) AME 
e 专注 于 提升 Hadoop 平 台 的 可 用 性 。 
HDP 的 优势 在 于 它 是 唯一 支持 Windows 平 台 的 Hadoop 版 本 ， 劣 势 是 
它 的 Ambari 管 理 界面 过 于 简单 ， 没 有 提供 丰富 的 特性 。 





4.1.3 MapR Hadoop 


MapR Hadoop 是 这 三 种 Hadoop 版 本 中 运行 最 快 的 ， 它 的 理念 是 市 场 
驱动 实体 ， 因 此 需要 支持 更 快 的 市 场 需求 。 与 Cloudera 和 Hortonworks 不 
同 ，MapR 使 用 更 加 分 布 式 的 方法 ， 将 元 数据 存储 在 处 理 节点 上 。MapR 
Hadoop 建 立 在 MapRFS 文 件 系 统 之 上 ， 因 此 没有 NameNode 的 概念 。 
MapR 的 Hadoop 发 行 版 本 不 依赖 于 Linux 的 文件 系统 。 


MapR Hadoop 的 特性 如 下 : 


MapR Hadoop 依 赖 于 MapRFS， 因 此 它 是 唯一 包含 没有 任何 Java 
依赖 的 Pig、Hive 和 Sqoop 的 Hadoop 发 行 版 本 。 
MapR 是 产品 化 程度 最 高 的 Hadoop 发 行 版 本 ， 它 的 速度 更 快 ， 可 
靠 性 更 高 。 
MapR 人 允许 多 个 节点 直接 访问 NFS， 用 户 可 以 在 NFS 之 上 挂 载 
MapR 文 件 系 统 ， 因 此 可 以 使 用 传统 方式 访问 Hadoop 的 数据 。 
MapR Hadoop 提 供 完 整 的 数据 保护 功能 ， 没 有 单 点 故障 。 
MapR Hadoop 被 认为 是 最 快 的 Hadoop 发 行 版 本 。 

MapR Hadoop 优 点 是 速度 快 ， 没 有 单 点 故障 ， 缺 点 是 没有 好 的 用 户 
界面 控制 合 。 

Cloudera、HortonWorks、MapR 这 三 个 都 是 Hadoop 开 源 产 品 的 商业 
分 发 版 ， 其 价值 主要 体现 在 两 个 方面 : 

















。 对 Hadoop 生 态 圈 中 各 种 各 样 的 组 件 进 行 兼 容 性 测试 并 打包 。 
e 提供 工具 简化 Hadoop 集 群 的 安装 和 建立 。 


Hadoop 开 源 版 本 的 主要 挑战 在 于 ， 要 搞 清楚 哪些 组 件 的 哪些 版 本 是 
相互 兼容 的 。 事 实证 明 ， 保 持 Hadoop 生 态 圈 开源 社区 中 众多 相关 项 目的 
版 本 同步 是 非常 困难 的 。 实 际 上 基于 版 本 的 兼容 性 是 会 随 着 版 本 改变 
的 。 保 持 对 这 些 依 赖 性 的 跟踪 并 了 解 哪些 版 本 可 以 在 一 起 协同 工作 并 不 
容易 。 为 了 使 Hadoop 的 部 蜀 更 加 顺利 ， 许 多 公司 已 经 把 多 种 兼容 的 组 件 
打包 在 一 起 。 

集群 的 建立 和 管理 是 男 一 个 主要 挑战 。 安 装 集群 并 在 安装 后 监控 集 
群 的 健康 状况 都 比较 困难 。Hadoop 主 要 发 行 版 本 通过 提供 多 种 工具 ， 使 
集群 的 建立 和 管理 简化 了 很 多 。 从 后 面 介绍 的 开源 版 本 Hadoop 和 CDH 
安装 可 以 看 到 两 者 的 区 别 。 

每 种 主要 发 行 版 本 所 包含 的 组 件 集 合 都 不 尽 相 同 。 例 如 ，Cloudera 
包含 Impala， 而 HortonWorks 里 就 没有 。 这 些 区 别 会 给 选择 发 行 版 本 市 
来 烦恼 一 一 并 不 是 每 一 个 分 发 版 本 都 包含 Hadoop 生 态 圈 的 所 有 工具 。 








4.2 ”安装 Apache Hadoop 


42. ”安装 环境 





这 里 只 是 演示 手工 安装 Apache Hadoop 的 过 程 ， 不 作为 生产 环境 使 
用 ， 因 此 建立 四 台 VirtualBox 上 的 Linux 虚 机 ， 每 台 硬 盘 20GB， 内 存 
768MB (Hadoop 建 议 操 作 系 统 的 最 小 内 存 是 2GB) 。IP 与 主机 名 如 下 : 


e 192.168.56.101 master 
e 192.168.56.102 slave1 
e 192.168.56.103 slave2 


e 192.168.56.104 slave3 


主机 规划 : 192.168.56.101 做 master， 运 行 NameNode 和 
ResourceManager 进 程 。 其 他 三 台 主 机 做 slave， 运 行 DataNode 和 
NodeManager 进 程 。 


操作 系统 : CentOS release 6.4 (Final)。 
Java 版 本 : jdk1.7.0_75(2.7 及 其 以 后 版 本 的 Hadoop 需 要 Java 7) 。 
Hadoop 版 本 : hadoop-2.7.2。 
422 ”安装 前 准备 
第 1、2 步 使 用 root 用 户 执行 ，3、4 步 使 用 grid 用 户 执行 。 
1. 分别 在 四 台 机 器 上 建立 grid 用 户 
# 新 建 用 户 grid， 主 目录 为 /home/grid， 如 果 该 目录 不 存在 则 建立 
useradd -d /home/grid -m grid 


# 将 grid 用 户 加 到 root 组 
usermod -a -G root 


2. 分 别 在 四 台 机 器 上 的 /etc/hosts 文 件 中 添加 如 下 内 容 ， 
用 作 域 名 解析 
192.168.56.101 master 
192.168.56.102 slavel 


192.168.56.103 slave2 
192.168.56.104 slave3 


3. 分 别 在 四 台 机 器 上 安装 java〔 安 装 包 已经 下 载 到 grid 
用 户主 目录 ) 
# 进入 grid 用 户 的 主 目录 
(pue 一 


# 解压 缩 
tar -zxvf jdk-7u75-linux-x64.tar.gz 











4. 配置 ssh 免 密码 


Hadoop 集 群 中 的 各 个 节点 主机 需要 相互 通信 ， 因 此 DataNode 与 
NameNode 之 间 要 能 免 密 码 ssh， 这 里 配置 了 任意 两 台 机 器 都 免 密码 。 


(1) 分 别 在 四 台 机 右上 生成 密 钥 对 


# 进入 grid 用 户 的 主 目录 
odo = 

# 生成 密 钥 对 
ssh-keygen -t rsa 


然后 一 路 按 回 车 键 。 


(2) 在 master 上 执行 


# 进入 ,ssh 

Gades css 

# JECKBLIS A AEDS E E 7 .ssh/authorized keys “(4 E 

ssh-copy-id 192.168.56.101 

4 将 authorized_keys 文 件 复制 到 第 二 台 主 机 

scp /home/grid/.ssh/authorized keys 192.168.56.102:/home/grid/.s 


(3) 在 slavel 上 执行 


Gus vss 
ssh-copy-id 192.168.56.102 
scp /home/grid/.ssh/authorized keys 192.168.56.103:/home/grid/.s 


(4) 在 slave2 上 执行 


cd ~/.ssh/ 
ssh-copy-id 192.168.56.103 
scp /home/grid/.ssh/authorized keys 192.168.56.104:/home/grid/.s 


(5) 在 slave3 上 执行 


cd ~/.ssh/ 

ssh-copy-id 192.168.56.104 

# 此 时 authorized_keys 文 件 中 已 经 包含 所 有 四 台 主 机 的 公 钥 ， 将 它 复 制 到 每 台 主 机 
scp /home/grid/.ssh/authorized keys 192.168.56.101:/home/grid/.s 
scp /home/grid/.ssh/authorized keys 192.168.56.102:/home/grid/.s 
scp /home/grid/.ssh/authorized keys 192.168.56.103:/home/grid/.s 





至 此 ， 免 密码 ssh 配 置 完成 。 
4.2.3 ”安装 配置 Hadoop 
以 下 的 操作 均 使 用 grid 用 户 在 master 主 机 上 执行 。 
1. 安装 hadoop( 安 装 包 已 经 下 载 到 grid 用 户主 目录 ) 


Cor 
tar -zxvf hadoop-2.7.2.tar.gz 


2. 建立 目录 


cd ~/hadoop-2.7.2 
mkdir tmp 

mkdir hdfs 

mkdir hdfs/data 
mkdir hdfs/name 


3. 修改 配置 文件 


mt ~ /hadoop-2.7.2/etc/hadoop/core-site.xml X-f/F, 54H RAR. 


«configuration» 

«property» 

<name>fs .defaultFS</name> 
<value>hdfs://192.168.56.101:9000</value> 
</property> 

<property> 

<name>hadoop.tmp.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/tmp</value> 
</property> 

<property> 


<name>io.file.buffer.size</name> 
<value>131072</value> 
</property> 

</configuration> 


说 明 : ”core-site.xml 是 Hadoop 的 全 局 配置 文件 ， 这 里 配置 了 三 个 参 


数 。 
e fs.defaultFS: 默认 文件 系统 的 名 称 ，URI 形 式 ， 默 认 是 本 地 文件 
系统 。 
e hadoop.tmp.dir: Hadoop 的 临时 目录 ， 其 他 目录 会 基于 此 路 径 ， 
是 本 地 目录 。 
e io.file.buffer.size: 在 读 写 文件 时 使 用 的 绥 存 大 小 。 这 个 大 小 应 该 
是 内 存 Page 的 倍数 。 
748 ~ /hadoop-2.7.2/etc/hadoop/hdfs-site.xmlSC fF, JJ FAR. 
«configuration» 
«property» 


<name>dfs.namenode.name.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/name</value> 
</property> 

<property> 

<name>dfs.datanode.data.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/data</value> 
</property> 

<property> 

<name>dfs.replication</name> 

<value>3</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address</name> 
<value>192.168.56.101:9001</value> 

</property> 

<property> 
<name>dfs.namenode.servicerpc-address</name> 
<value>192.168.56.101:10000</value> 

</property> 

<property> 

<name>dfs.webhdfs.enabled</name> 
<value>true</value> 


</property> 
«/configuration» 


WHH: ”hdfs-site.xml 是 HDFS 的 配置 文件 ， 这 里 配置 了 6 个 参数 。 


e dfs.namenode.name.dir: 本 地 磁盘 目录 ， 用 于 NamaNode 存 储 
fsimage 文 件 。 可 以 是 按 喜 号 分 隔 的 目录 列表 ，fsimage 文 件 会 存 
储 在 每 个 目录 中 ， 宛 余 安 全 。 这 里 多 个 目录 设 定 ， 最 好 在 多 个 磁 
盘 ， 如 果 其 中 一 个 磁盘 故障 ， 会 跳 过 坏 磁 盘 ， 不 会 导致 系统 停 
服 。 如 果 配 置 了 HA， 建 议 仅 设置 一 个 。 如 果 特 别 在 意 安 全 ， 可 
以 设置 2 个 。 

dfs.datanode.data.dir: 本 地 磁盘 目录 ，HDFS 数 据 存储 数据 块 的 地 
方 。 可 以 是 去 号 分 隔 的 目录 列表 ， 典 型 的 ， 每 个 目录 在 不 同 的 夏 
盘 。 这 些 目 录 被 轮流 使 用 ， 一 个 块 存 储 在 这 个 目录 ， 下 一 个 块 存 
储 在 下 一 个 目录 ， 依 次 循环 。 每 个 块 在 同一 个 机 器 上 仪 存储 一 
份 。 不 存在 的 目录 被 忽略 。 必 须 创 建文 件 夹 ， 否 则 被 视 为 不 存 
fE 

dfs.replication: 数据 块 副本 数 。 此 值 可 以 在 创建 文件 时 设 定 ， 客 
户 端 可 以 设 定 ， 也 可 以 在 命令 行 修 改 。 不 同文 件 可 以 有 不 同 的 副 
本 数 。 默 认 值 用 于 未 指定 时 。 
dfs.namenode.secondary.http-address: SecondaryNameNode 的 http 
服务 地 址 。 如 果 端 口 设 置 为 0， 服 务 将 随机 选择 一 个 空闲 疹 口 。 
使 用 了 HA 后 ， 就 不 再 使 用 SecondaryNameNode 了 。 
dfs.namenode.servicerpc-address: HDFS 服 务 通信 的 RPC 地 址 。 如 
果 设 置 该 值 ， 备 份 结 点 、 数 据 结 点 和 其 他 服务 将 会 连接 到 指定 地 
址 。 注 意 ， 该 参数 必须 设置 。 

dfs.webhdfs.enabled: 指定 是 否 在 NameNode 和 DataNode 上 开局 
WebHDFS 功 能 。 
































748 — /hadoop-2.7.2/etc/hadoop/yarn-site.xml X- fF, WIU FAR. 


«configuration» 

«property» 

<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 

</property> 

<property> 

<name>yarn.nodemanager .aux-services.mapreduce.shuffle.class</nam 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 

<property> 

<name>yarn.resourcemanager .address</name> 
<value>192.168.56.101:8032</value> 

</property> 

<property> 
<name>yarn.resourcemanager .scheduler .address</name> 
<value>192.168.56.101:8030</value> 

</property> 

<property> 

<name>yarn.resourcemanager .resource-tracker .address</name> 
<value>192.168.56.101:8031</value> 

</property> 

<property> 

<name>yarn.resourcemanager .admin.address</name> 
<value>192.168.56.101:8033</value> 

</property> 

<property> 

<name>yarn.resourcemanager .webapp.address</name> 
<value>192.168.56.101:8088</value> 

</property> 

<property> 

<name>yarn.nodemanager .resource.memory -mb</name> 
<value>1024</value> 

</property> 

«/configuration» 


WHH: yam-site.xml 是 YARN 的 配置 文件 ， 这 里 配置 了 8 个 参数 。 


e yarn.nodemanager.aux-services: NodeManager 上 运行 的 附属 服 
务 。 需 配置 成 mapreduce_shuffle， 才 可 运行 MapReduce 程 序 。 
e yarn.nodemanager.aux-services.mapreduce.shuffle.class: 对 应 参考 


yarn.nodemanager. aux-services 。 





e yarn.resourcemanager.address: ResourceManager 对 客户 端 暴 露 的 


4 
o 


地 址 。 客 户 端 通过 该 地 址 向 RM 提交 应 用 程序 ， 儿 死 应 用 程序 


等 。 


yarn.resourcemanager.scheduler.address: 调度 右 地 址 ， 是 
ResourceManager*! ApplicationMaster&& T 的 访问 地 址 。 
ApplicationMaster 通 过 该 地 址 向 RM 申请 资产、 释放 资源 等 。 
yarn.resourcemanager.resource-tracker.address: ResourceManager 对 
NodeManager 暴 露 的 地 址 。NodeManager 通 过 该 地 址 各 RM 汇报 心 
跳 ， 领 取 任 务 等 。 

yarn.resourcemanager.admin.address: eas E 
露 的 访问 地 址 。 管 理 员 通过 该 地 址 向 RM 发 送 管 理 命令 等 。 

yer SO mana er webapp.address: ResourceManage 对 外 Web 
UI 地 址 。 用 户 可 通过 该 地 址 在 浏览 器 中 查看 集群 各 类 信息 。 
yarn.nodemanager.resource.memory-mb: NodeManage 总 的 可 用 物 
理 内 存 ， 不 能 小 于 1024。 注 意 ， 该 参数 一 旦 设置 ， 整 个 运行 过 程 
中 不 可 动态 修改 。 








编辑 一 /hadoop-2.7.2/etwhadoop/mapred-site.xml 文 件 ， 添 加 如 下 内 


«configuration» 

«property» 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 

</property> 

<property> 

<name>mapreduce. jobhistory.address</name> 
<value>192.168.56.101:10020</value> 
</property> 

<property> 

<name>mapreduce. jobhistory.webapp.address</name> 
<value>192.168.56.101:19888</value> 
</property> 

</configuration> 


说 明 : mapred-site.xml 是 MapReduce 的 配置 文件 ， 这 里 配置 了 三 个 


e mapreduce.framework.name: 设置 MapReduce 的 执行 框架 为 yarn。 

e mapreduce.jobhistory.address: MapReduce 历 史 服 务 器 的 地 址 。 

e mapreduce.jobhistory.webapp.address: MapReduce 历 史 服 务 器 Web 
UI 地 址 。 


编辑 一 /hadoop-2.7.2/etchadoop/slaves 文 件 ， 添 加 如 下 内 容 。 


192 .168 .56.102 
192 .168.56.103 
192.168.56.104 


WHH: ”在 etc/hadoop/slaves 文 件 中 写 出 所 有 slave 的 主机 名 或 者 IP 地 
址 ， 每 个 一 行 。Hadoop 辅 助 脚本 使 用 etc/hadoop/slaves 文 件 一 次 在 多 个 
主机 上 运行 命令 。 这 些 脚 本 并 不 使 用 任何 基于 Java 的 Hadoop 配 置 。 为 了 
正常 使 用 ， 运 行 Hadoop 的 用 户 各 在 服务 器 之 间 需 要 ssh 信 任 〈 即 安装 前 
配置 的 ssh 免 密码 ) 。 

编辑 一 /hadoop-2.7.2/etchadoop/hadoop-env.sh 文 件 ， 修 改 如 下 内 
容 。 


export JAVA HOME-/home/grid/jdk1.7.0 75 


WHH: 使 用 etwhadoop/hadoop-env.sh 脚 本 设置 Hadoop HDFS 后 台 进 
程 的 站 点 特定 环境 变量 ， 至 少 需要 指定 JAVA_HOME， 以 保证 在 每 一 个 
远程 节点 上 正确 定义 。 


编辑 一 /hadoop-2.7.2/etc/hadoop/yarn-env.sh 文 件 ， 修 改 如 下 内 容 。 








export JAVA HOME=/home/grid/jdk1.7.0_75 


WHH: ”使 用 etwhadoop/yarn-env.sh 脚 本 设置 Hadoop YARN 后 台 进 程 
的 站 点 特定 环境 变量 ， 至 少 需要 指定 JAVA_HOME， 以 保证 在 每 一 个 远 








程 节 点 上 正确 定义 。 


4. 
scp -r 
scp -r 
scp -r 


将 hadoop 主 目录 复制 到 各 个 从 服务 器 上 


./hadoop-2.7.2 192.168.56.102:/home/grid/ 
./hadoop-2.7.2 192.168.56.103:/home/grid/ 
./hadoop-2.7.2 192.168.56.104:/home/grid/ 


42.4 ”安装 后 配置 


使 用 root 用 户 分 别 在 四 台 机 器 上 的 /etcprofile 文 件 中 添加 如 下 环境 变 


Ee. 
ER o 


export 
export 
export 
export 
export 
export 
export 
export 
export 
export 
export 
export 


JAVA HOME-/home/grid/jdk1.7.0 75 

CLASSPATH-.:$JAVA HOME/jre/lib/rt.jar:$JAVA HOME/lib/dt.j 
HADOOP HOME-/home/grid/hadoop-2.7.2 

HADOOP COMMON HOME-$HADOOP HOME 

HADOOP HDFS HOME-$HADOOP HOME 

HADOOP MAPRED HOME-$HADOOP HOME 

HADOOP YARN HOME-$HADOOP HOME 

HADOOP CONF DIR-$HADOOP HOME/etc/hadoop 

PATH=$PATH : $JAVA_HOME/bin: $HADOOP_HOME/bin: $HADOOP_HOME/s 
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/1ib/native 
HADOOP OPTS-"-Djava.library.path-$HADOOP HOME/lib" 

LD LIBRARY PATH-$HADOOP HOME/lib/native 


使 环境 变量 生效 。 


source /etc/profile 


42.5 初始 化 及 运行 


以 下 的 操作 均 使 用 grid 用 户 在 master 主 机 上 执行 。 
# 格式 化 HDFS 


hdfs namenode -format 


看 到 输出 中 出 现 “INFO common.Storage: Storage 
directory/home/grid/hadoop-2.7.2/hdfs/name has been successfully 


formatted.” 信 息 ， 则 表明 格式 化 成 功 。 


# 启动 HDFS 
start-dfs.sh 
# 启动 YARN 
start-yarn.sh 


执行 成 功 后 ， 使 用 jps 命 令 得 看 主 节 点 Java 进 程 ， 可 以 看 到 主 节 点 上 
启动 了 NameNode、SecondaryNameNode、ResourceManager 守 护 进 程 ， 
如 下 所 示 。 

[grid@master hadoop]$ jps 
7194 Jps 
6916 ResourceManager 


6757 SecondaryNameNode 
6546 NameNode 


查看 从 节点 Java 进 程 ， 可 以 看 到 从 节点 上 局 动 了 DataNode、 


NodeManager 守 护 进程 ， 如 下 所 示 。 
[grid@slave1 ~]$ jps 
1385 DataNode 


1506 Jps 
1470 NodeManager 


通过 Web 接 口 查 看 NameNode， 如 图 4-1 所 示 。 


€ c 192.168.17.210:50070/dfshealth.htmlztab-overview 
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图 4-1 Hadoop Web 界 面 





至 此 ，Apache Hadoop 已 经 安装 完成 ， 这 个 安装 只 有 HDFS、 
YARN、MapReduce 等 基本 组 件 ， 不 包含 任何 其 他 的 Hadoop 组 件 。 如 果 
需要 使 用 Hive、HBase、Spark 等 其 他 工具 ， 需 要 在 此 基础 上 手工 安装 。 
在 4.4 节 安装 CDH 时 会 看 到 ， 它 已 经 包含 了 大 部 分 Hadoop 生 态 圈 提供 的 
服务 (5.7.0 包 含 21 个 服务 ) ， 安 装 时 可 以 配置 所 需 的 服务 ， 安 装 后 也 可 
以 使 用 图 形 化 的 控制 台 添加 或 删除 服务 ， 为 用 户 提 供 了 极 大 的 方便 。 





4.3 ”配置 HDFS Federation 


HDFS Federation 是 Hadoop-0.23.0 版 本 新 增 的 功能 ， 是 为 解决 HDFS 
单 点 故障 而 提出 的 NameNode 水 平 扩展 方案 。 该 方案 允许 HDFS 创 建 多 个 
namespace 以 提高 集群 的 扩展 性 和 隔离 性 。 本 节 主 要 介绍 了 HDFS 
Federation 的 原理 和 配置 。 


1. HDFS 的 两 层 结构 


如 图 4-2 所 示 ，HDFS 主 要 包含 两 层 结构 。 
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图 4-2 HDFS 的 两 层 结 构 











e 命名 空间 


由 目录 、 文 件 和 数据 块 组 成 ， 文 持 所 有 与 命名 空间 相关 的 文件 系统 
操作 ， 如 创建 、 删 除 、 修 改 和 列 出 文件 或 目录 。 


© 数据 块 存储 服务 


由 数据 块 管理 和 存储 两 部 分 组 成 。 数 据 块 管理 (在 NameNode 中 执 
行 ) 主要 功能 包括 : 通过 节点 注册 和 周期 性 的 心跳 ， 维 护 集群 中 
DataNode 的 成 员 关 系 ; 处 理 块 报告 ， 并 维护 数据 块 的 位 置 ， 文 持 创 建 、 
删除 、 获 取 块 的 位 置 等 数据 块 相 关 的 操作 ;管理 块 复制 。 存 储 则 是 
DataNodes 提 供 的 功能 ， 它 在 本 地 文件 系统 存储 实际 的 数据 块 并 允许 针 
对 数据 块 的 读 写 访问 。 

早期 HDFS 架 构 只 允许 整个 集群 中 存在 一 个 命名 空间 ， 而 该 命名 空 
间 被 仅 有 的 一 个 NameNode 管 理 。 这 个 架构 使 得 HDFS 非 常 容易 实现 ， 但 
是 ， 这 种 设计 导致 了 很 多 局 限 。 





2. HDFS 局 限 性 


o XU RM 24 E E RARE 





NameNode'# ft) ái 44 7r [HUS FE BU Zt 6r f FD JR AE — 
起 ， 难 以 让 其 他 可 能 的 NameNode 实 现 方 案 直 接 使 用 块 存储 。 


e NameNode 不 易 扩 展 


HDFS 的 确 层 存储 是 可 以 水 平 扩 展 的 《底层 存储 指 的 是 DataNodes， 
当 集 群 存储 空间 不 够 时 ， 可 简单 地 添加 机 器 以 进行 水 平 扩展 ) ， 但 命 
空间 不 可 以 。 当 前 的 命名 空间 只 能 存放 在 单个 NameNode 上 ， 而 
NameNode 在 内 存 中 存储 了 整个 分 布 式 文件 系统 中 的 元 数据 信息 ， 这 限 
制 了 集群 中 数据 块 ， 文 件 和 目录 的 数目 。 





e TER 


Cc 


文件 操作 的 性 能 受制 于 单个 NameNode 的 吞吐 量 。 








现在 大 部 分 集群 都 是 共享 的 ， 每 天 有 来 自 不 同 部 门 的 不 同 用 户 提 交 
作业 。 单 个 NameNode 难 以 提供 隔离 性 ， 即 : 某 个 用 户 提 交 的 负载 很 大 
的 作业 会 减 慢 其 他 用 户 的 作业 执行 ， 单 一 的 NameNode 无 法 按照 应 用 类 
别 将 不 同 作业 分 派 到 不 同 NameNode 上 。 


3. Federation Ej 


Federation 架 构 如 图 4-3 所 示 。 
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图 4-3  FederationZE fj 








采用 Federation 的 最 主要 原因 是 实现 简单 ，Federation 能 够 快速 地 解 
决 大 部 分 单 NameNode 的 问题 。Federation 主 要 改变 是 在 DataNode、 配 置 
和 工具 ， 而 NameNode 本 和 刁 的 改动 非常 少 ， 这 样 NameNode 原 先 的 鲁 棒 性 
不 会 受到 影响 ， 也 使 得 该 方案 与 之 前 的 HDFS 版 本 兼容 。 


为 了 水 平 扩展 NameNode，federation 使 用 了 多 个 独立 的 NameNode 及 
命名 空间 。 这 些 NameNode 之 间 是 分 离 的 ， 也 就 是 说 ， 它 们 之 间 相 互 独 
立 且 不 需要 互相 协调 ， 各 自分 工 ， 管 理 自己 的 区 域 。 分 布 式 的 DataNode 
被 用 作 通 用 的 数据 块 存储 设备 。 每 个 DataNode 要 辣 集 群 中 所 有 的 
NameNode 注 册 ， 旦 周期 性 地 向 所 有 NameNode 发 送 心 跳 和 块 报 告 ， 并 执 
行 来 自 所 有 NameNode 的 命令 。 


一 个 block pool 由 属于 同一 个 命名 空间 的 数据 块 组 成 ， 每 个 
DataNode 可 能 会 存储 集群 中 所 有 block pool 的 数据 块 。 


每 个 block pool 内 部 自治 ， 也 就 是 说 各 自 管理 自己 的 block， 不 会 与 
其 他 block pool 交 流 。 一 个 NameNode 失 效 ， 不 会 影响 其 他 NameNode。 


某 个 NameNode 上 的 命名 空间 和 它 对 应 的 block pool 一 起 被 称 为 命名 














空间 卷 。 它 是 管理 的 基本 单位 。 当 一 个 NameNode 及 命名 空间 被 删除 
后 ， 其 所 有 DataNode 上 对 应 的 block “pool 也 会 被 删除 。 当 集群 升级 时 ， 
每 个 命名 空间 卷 作为 一 个 基本 单元 进行 升级 。 

一 个 ClusterID 用 来 标识 集群 中 的 所 有 节点 。 当 一 个 NameNode 被 格 
式 化 时 ， 需 要 提供 此 ClusterID， 或 者 自动 生成 一 个 ClusterID。 生 成 的 
ClusterID 被 用 于 集群 中 其 他 NameNodes 的 格式 化 。 





4. Federation 配 置 


现在 为 前 面 已 安装 的 Apache Hadoop 配 置 Federation， 要 达到 以 下 三 
个 目的 : 


e 现 有 Hadoop 和 集群 只 有 一 个 NameNode， 现 在 要 增加 一 个 
NameNode. 

。 两 个 NameNode 构 成 HDFS Federation. 

。 不 重启 现 有 集群 ， 不 影响 数据 访问 。 


(1) 现 有 环境 


5 台 CentOS release 6.4 虚 拟 机 ， 在 各 个 主机 的 /etchosts 文 件 中 都 配置 
了 域名 解析 ，IP 地 址 和 主机 名 如 下 : 


e 192.168.56.101 master 
e 192.168.56.102 slave1 
e 192.168.56.103 slave2 
e 192.168.56.104 slave3 
e 192.168.56.105 master2 


其 中 master、slavel1、slave2、slave3 是 我 们 刚才 安装 的 Hadoop 集 群 
节点 ，master2 是 新 增 的 一 台 “ 干 净 ” 的 机 器 ， 已 经 配置 好 免 密 码 ssh， 将 





作为 新 增 的 NameNode。 
Hadoop 版 本 : hadoop 2.7.2. 
BU BUE: master 作 为 Hadoop 和 集群 的 NameNode、 


SecondaryNameNode、ResourceManager; slavel1、slave2、slave3 作 为 
Hadoop 和 集群 的 DataNode、NodeManager。 


(2) 配置 步骤 


步骤 01 编辑 master 上 的 hdfs-site.xml 文 件 ， 修 改 后 的 文件 内 容 如 下 
所 示 。 


<?xml version="1.0" encoding="utf-8"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/name</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/data</value> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
</property> 
<property> 
<name>dfs.webhdfs.enabled</name> 
<value>true</value> 
</property> 


<!-- 新 增 属性 --> 

<!-- 配置 两 个 命名 空间 ns1 和 mns2 --> 

<property> 
<name>dfs.nameservices</name> 
<value>nsi, ns2</value> 

</property> 


<!-- 配置 ns1 的 属 ! 


«property» 








生 --> 


E 





<name>dfs.namenode.rpc-address.nsi</name> 
<value>master :9000</value> 

</property> 

<property> 
«name»dfs.namenode.http-address.nsi«/name» 
«value»master:50070«/value» 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address.nsi</name> 
<value>master :9001</value> 





</property> 
«1-- 配置 ns2 的 属性 --> 
«property» 


<name>dfs.namenode.rpc-address.ns2</name> 
«value»master2:9000«/value» 

</property> 

<property> 
<name>dfs.namenode.http-address.ns2</name> 
<value>master2:50070</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address.ns2</name> 
<value>master2:9001</value> 

</property> 

</configuration> 


步骤 02 复制 master 上 的 hdfs-site.xml 文 件 到 集群 上 的 其 他 节点 。 


scp hdfs-site.xml slave1:/home/grid/hadoop-2.7.2/etc/hadoop/ 
scp hdfs-site.xml slave2:/home/grid/hadoop-2.7.2/etc/hadoop/ 
scp hdfs-site.xml slave3:/home/grid/hadoop-2.7.2/etc/hadoop/ 


3:03 将 Java 目 录 、Hadoop 上 目录、 环境 变 量 文件 从 master 复 制 到 
master2. 

scp -rp /home/grid/hadoop-2.7.2 master2:/home/grid/ 

scp -rp /home/grid/jdk1.7.0_75 master2:/home/grid/ 


# 用 root 执行 
scp -p /etc/profile.d/* master2:/etc/profile.d/ 


$5044 启动 新 的 NameNode、SecondaryNameNode。 


# 在 master2 上 执行 
source /etc/profile 


$HADOOP HOME/sbin/hadoop-daemon.sh start namenode 
$HADOOP HOME/sbin/hadoop-daemon.sh start secondarynamenode 


执行 成 功 后 ， 使 用 jps 命 令 查看 master2 上 的 Java 进 程 ， 可 以 看 到 启动 
了 NameNode、SecondaryNameNode 进 程 ， 如 下 所 示 。 





[grid@master2 —]$ jps 
2285 Jps 

2244 SecondaryNameNode 
2154 eNode 


步骤 054 刷新 DataNode 收 集 新 添加 的 NameNode， 在 集群 中 任意 一 
台 机 器 上 执行 均 可 。 
$HADOOP_HOME/bin/hdfs dfsadmin -refreshNamenodes slavei1:50020 


$HADOOP HOME/bin/hdfs dfsadmin -refreshNamenodes slave2:50020 
$HADOOP HOME/bin/hdfs dfsadmin -refreshNamenodes slave3:50020 


至 此 ，HDFS Federation 配 置 完 成 ， 从 Web 碍 看 两 个 NameNode 的 状 
态 分 别 如 图 4-4 和 图 4-5 所 示 。 从 图 中 可 以 看 到 两 个 NameNode 的 ClusterID 
相同 。 


{_} Namenode information X | i. Namenode information Xx|* 


ET 192.168.56.101:50070/dfshealth.htmistab-overvie 








Hadoop Overview Datanodes Datanode Volume Failures Snapshot Startup Progress Utilities 


Overview 








Started: Thu May 05 09:59:20 CST 2016 
Version: 2.7.2, rUnknown 


Compiled: 2016-04-27T03:00Z by zeppelin from Unknown 


Cluster ID: CiD-f1476944-3a65-4e59-bd91-14290210c28a 





Block Pool ID: BP-1811414180-192.168.56.101-1462339981960 


Summary 





图 4-4 ”第 一 个 NameNode 





EDU NNNM Namenode information X al 
@ [62 192.168.56.104:50070/dfsheaith.ntmbsttab-overview 





n 6 Datanode Volume Failures Snapshot Startup Progress Utilities 


Overvion 77777] 


Started: Thu May 05 10:13:40 CST 2016 


Version: 2.7.2, runknown 


Compiled: 2016-04-27T03:00Z by zeppelin from Unknown 


CID-f1476944-3a65-4e59-bd91-14290210c28a 


Block Pool ID: BP-1811414180-192.168.56.101-1462339981960 





Summary 


图 4-5 第 二 个 NameNode 





44 离线 安装 CDH 及 其 所 需 的 服务 

在 后 面 的 数据 仓库 实践 中 会 用 到 Sqoop、Hive、Oozie、Impala、 
Hue 等 工具 ， 出 于 简单 部 署 的 原则 ， 这 里 选择 CDH 5.7.0， 并 启用 相关 服 
务 。 
4.4.1 CDH 安 装 概述 


CDH 的 全 称 是 Cloudera's Distribution Including Apache Hadoop， 是 
Cloudera 公 司 的 Hadoop 发 行 版 本 。 有 三 种 方式 安装 CDH: 





e Path A: 通过 Cloudera Manager 目 动 安 装 。 
e Path B: 使 用 Cloudera Manager Parcels 或 Packages 安 装 。 
e Path C: 使 用 Cloudera Manager Tarballs 手 工 安 装 。 


不 同方 式 的 安装 步 又 总 结 如 表 4-1 所 示 。 





表 4-1 CDH 的 三 种 安装 方式 





步骤 1: 安装 JDK 
Cloudera Manager 
Server 、 Management 
Service 和 CDH 需要 安 
装 JDK 

步骤 2: 设置 数据 库 
Cloudera Manager Server、 
Cloudera Management 
Service 和 某 些 CDH 的 
可 选 服务 需要 安装 、 配 
性 和 启动 数据 库 


步骤 3: 安装 Cloudera 
Manager 服务 器 

在 一 台 主 机 上 安装 和 启 
动 Cloudera Manager 服 
务 器 


步骤 4: 安装 Cloudera 
Manager 代理 


在 所 有 主机 上 安装 并 启 
动 Cloudera Manager 代 


步骤 5: 安装 CDH 和 服 
务 

在 所 有 主机 上 安装 
CDH 及 其 服务 


步骤 6: 建立 、 配 置 并 
启动 CDH 和 服务 
在 所 有 主机 上 配置 并 启 
动 CDH 及 其 服务 


(1) 使 用 Cloudera Manager 安装 程序 在 集群 中 的 所 有 主机 的 /usr/Java 下 安装 一 


个 Oracle JDK 的 支持 版 本 。 


(2) 使 用 命令 行 在 所 有 主机 上 安装 一 个 Oracle JDK 的 支持 版 本 ， 并 且 设 置 
JAVA HOME 环境 变量 为 JDK 的 安装 目录 


有 两 个 选项 : 


(1) 使 用 Cloudera Manager 安装 程序 安装 、 配 置 和 启动 一 个 内 嵌 的 PostgreSQL 


数据 库 。 


(2) 使 用 诸如 yum 这 样 的 命令 行 包 安装 工具 安装 、 配 置 和 启动 数据 库 


使 用 Cloudera Manager 
安装 程序 安装 服务 器 。 
需要 该 主机 的 sudo 权限 
并 能 访问 互联 网 


使 用 Cloudera Manager 
安装 向 导 在 所 有 主机 上 
安装 代理 


使 用 Cloudera Manager 
安装 向 导 安 装 CDH 及 其 
服务 


使 用 Cloudera Manager 
安装 向 导 给 主机 赋予 角 
色 并 配置 集群 。 许 多 配 
置 是 自动 的 


使 用 Linux 包 安 装 命令 
(如 yum) 安装 Cloudera 
Manager 服务 器 。 

修改 数据 库 属性 。 

使 用 service 命令 局 动 
Cloudera Manager 服务 器 
有 两 个 选项 : 

(1) 使 用 Linux 包 安 装 
命令 (如 yum) 在 所 有 
主机 上 安装 Cloudera 
Manager 代理 。 

(2) 使 用 Cloudera 
Manager 安装 向 导 在 所 
有 主机 上 安装 代理 

有 两 个 选项 : 

(1) 使 用 Cloudera 
Manager 安装 向 导 安 装 
CDH 及 其 服务 。 

(2) 使 用 Linux 包 安 装 命 
令 (如 yum) 在 所 有 主 
机 上 安装 CDH 及 其 服务 
使 用 Cloudera Manager 
安装 向 导 给 主机 授予 角 
色 并 配置 集群 。 许 多 配 
Tie HI 


使 用 Linux 命令 解 包 ， 
并 且 使 用 service 命令 
启动 服务 


使 用 Linux 命令 在 所 有 
主机 上 解 包 并 局 动 代 
理 


使 用 Linux 命令 在 所 有 
主机 上 解 包 ， 并 使 用 
service 命令 启动 CDH 
及 其 服务 


使 用 Cloudera Manager 
角色 并 配置 集群 。 许 
多 配置 是 自动 的 。 也 
可 以 使 用 Cloudera 
Manager API 管理 一 个 
集群 ， 这 对 于 脚本 预 
配置 部 署 是 很 有 用 的 





4.4.2 ”安装 环境 


硬件 配置 : 每 台 主 机 CPU4 核 、 内 存 8GB、 硬 往 100GB。 卫 与 主机 名 
如 下 : 





e 172.16.1.101 cdh1 
e 172.16.1.102 cdh2 
e 172.16.1.103 cdh3 
e 172.16.1.104 cdh4 


各 软件 版 本 如 表 4-2 所 示 。 


表 4-2 ”安装 CDH 所 需 软件 的 版 本 


软件 名 各 


操作 系统 CentOS release 6.4 (Final) 64 位 





数据 库 MySQL 5.6.14 


JDBC MySQL Connector Java 5.1.38 


Cloudera Manager 5.7.0 











CDH 5.7.0 
44.3 ”安装 配置 


1. 安装 前 准备 (都 是 使 用 root 用 户 在 集群 中 的 所 有 4 台 
主机 配置 ) 


。 从 以 下 地 址 下 载 所 需要 的 安装 文件 


http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.7. 
http://archive.cloudera.com/cdh5/parcels/5.7/CDH-5.7.0-1.cdh5.7. 
http://archive.cloudera.com/cdh5/parcels/5.7/CDH-5.7.0-1.cdh5.7. 
http://archive.cloudera.com/cdh5/parcels/5.7/manifest.json 


e 使 用 下 面 的 命令 检查 OS 依赖 包 ，xxxx 换 成 包 名 


rpm -qa | grep xxxx 
以 下 这 些 包 必须 安装 .; 


chkconfig 

python (2.6 required for CDH 5) 
bind-utils 

psmisc 

libxslt 

zlib 

sqlite 
cyrus-sasl-plain 
cyrus-sasl-gssapi 
fuse 

portmap (rpcbind) 
fuse-libs 
redhat-lsb 


。 配置 域名 解析 
vi /etc/hosts 


添加 如 下 4 行内 容 : 


172.16.1.101 cdh1 
172.16.1.102 cdh2 
172.16.1.103 cdh3 
172.16.1.104 cdh4 


e 安装 JDK 
CDH5 推 荐 的 JDK 版 本 是 1.7.0 67. 1.7.0 75. 1.7.0 80， 这 里 安装 


1.7.0 .80。 注 意 : 所 有 主机 要 安装 相同 版 本 的 JDK; 安装 目录 


为 /usr/java/jdk-version。 





mkdir /usr/java/ 

mv jdk-7u80-linux-x64.tar.gz /usr/java/ 
cd /usr/java/ 

tar -zxvf jdk-7u80-linux-x64.tar.gz 
chown -R root:root jdki1.7.0 80/ 

vi /etc/profile.d/java.sh 


添加 如 下 3 行内 容 : 


export JAVA HOME-/usr/java/jdk1.7.0 80 
export CLASSPATH-.:$JAVA HOME/jre/1lib/*:$JAVA HOME/lib/* 
export PATH-$PATH:$JAVA HOME/bin 


使 环境 变量 生效 


source /etc/profile.d/java.sh 


e 安装 、 配 置 并 启动 NTP 服 务 


yum install ntp 
chkconfig ntpd on 
ntpdate -u 202.112.29.82 
vi /etc/ntp.conf 


添加 如 下 8 行内 容 : 


driftfile /var/lib/ntp/drift 

restrict default kod nomodify notrap nopeer noquery 
restrict -6 default kod nomodify notrap nopeer noquery 
restrict 127.0.0.1 

restrict -6 ::1 

server 202.112.29.82 

includefile /etc/ntp/crypto/pw 

keys /etc/ntp/keys 


启动 NTP 服 务 : 


service ntpd start 


e 建立 CM 用 户 


useradd --system --home=/opt/cm-5.7.0/run/cloudera-scm-server -- 
shell-/bin/false --comment "Cloudera SCM User" cloudera-scm 
usermod -a -G root cloudera-scm 

echo USER=\"cloudera-scm\" >> /etc/default/cloudera-scm-agent 
echo "Defaults secure path = /sbin:/bin:/usr/sbin:/usr/bin" >> / 


。 安装 配置 MySQL 数 据 库 〈 为 了 后 面 配 置 方便 ， 这 里 每 个 主机 都 
装 了 ) 


rpm -ivh MySQL-5.6.14-1.e16.x86 64.rpm 
vi /etc/profile.d/mysql.sh 


添加 如 下 2 行内 容 : 


export MYSQL HOME-/home/mysql/mysql-5.6.14 
export PATH=$PATH: $MYSQL_HOME/bin 


使 环境 变量 生效 : 
source /etc/profile.d/mysql.sh 


修改 root 密 码 : 


mysqladmin -u root password 


编辑 配置 文件 : 


vi /etc/my.cnf 


内 容 如 下 : 


[mysqld] 
transaction-isolation = READ-COMMITTED 
log bin-/data/mysql binary log 

binlog format - mixed 

innodb flush log at trx commit = 2 
innodb flush method - O DIRECT 

key buffer - 16M 

key buffer size - 32M 

max allowed packet - 32M 

thread stack - 256K 

thread cache size 
query cache limit 
query cache size 6 
query cache type 1 
max connections - 550 
read buffer size - 2M 





read rnd buffer size - 16M 
sort buffer size - 8M 

join buffer size - 8M 

innodb flush log at trx commit 
innodb log buffer size - 64M 
innodb buffer pool size = 4G 
innodb thread concurrency - 8 
innodb log file size - 512M 
[mysql1d safe] 
log-error-/data/mysqld.err 
pid-file-/data/mysqld.pid 

sql mode-STRICT ALL TABLES 





添加 开机 启动 : 


chkconfig mysql on 


启动 MySQL: 


service mysql restart 


根据 需要 建立 元 数据 库 : 


mysql -u root -p -e "create database hive DEFAULT CHARACTER SET 
DEFAULT CHARACTER SET utf8;create database oozie DEFAULT CHARACT 
TO 'root'@'%' IDENTIFIED BY 'mypassword';" 


。 安装 MySQL JDBCIKZ) 


tar -zxvf mysql-connector-java-5.1.38.tar.gz 
cp ./mysql-connector -java-5.1.38/mysql-connector-java-5.1.38-bin 


connector- java. jar 


e 配置 免 密 码 ssh〈 这 里 配置 了 任意 两 台 机 器 都 免 密 码 ) 


分 别 在 四 全 机 器 上 生成 密 钥 对 : 


Co = 
ssh-keygen -t rsa 


然后 一 路 回 车 。 
在 cdh1 上 执行 : 


cd ~/.ssh/ 
ssh-copy-id cdhi 
scp /root/.ssh/authorized keys cdh2:/root/.ssh/ 


在 cdh2 上 执行 : 


cd ~/.ssh/ 
ssh-copy-id cdh2 
scp /root/.ssh/authorized keys cdh3:/root/.ssh/ 


在 cdh3 上 执行 : 


cd ~/.ssh/ 
ssh-copy-id cdh3 
scp /root/.ssh/authorized keys cdh4:/home/grid/.ssh/ 


在 cdh4 上 执行 : 


cd ~/.ssh/ 

ssh-copy-id cdh4 

scp /root/.ssh/authorized keys cdh1:/root/.ssh/ 
scp /root/.ssh/authorized keys cdh2:/root/.ssh/ 
scp /root/.ssh/authorized keys cdh3:/root/.ssh/ 


2. 在 cdh1 上 安装 Cloudera Manager 


tar -xzvf cloudera-manager*.tar.gz -C /opt/ 


建立 cm 数据 库 : 


/opt/cm-5.7.0/share/cmf/schema/scm prepare database.sh mysql cm 
pmypassword --scm-host localhost scm scm scm 


配置 cm 代理 : 


vi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.ini 


将 cm 主机 名 改 为 cdh1: 


server_host=cdh1 


将 Parcel 相 关 的 三 个 文件 复制 到 /opt/cloudera/parcel-repo: 


cp CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel /opt/cloudera/parcel-re 
cp CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel.shai /opt/cloudera/parc 
cp manifest.json /opt/cloudera/parcel-repo/ 


改名 : 


mv /opt/cloudera/parcel-repo/CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parc 
repo/CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel.sha 


修改 属 主 : 


chown -R cloudera-scm:cloudera-scm /opt/cloudera/ 
chown -R cloudera-scm:cloudera-scm /opt/cm-5.7.0/ 


将 /opt/cm-5.7.0 目 录 复 制 到 其 他 三 个 主机 : 


scp -r -p /opt/cm-5.7.0 cdh2:/opt/ 
scp -r -p /opt/cm-5.7.0 cdh3:/opt/ 
scp -r -p /opt/cm-5.7.0 cdh4:/opt/ 





3. 在 每 个 主机 上 建立 /opt/cloudera/parcels 目 录 ， 并 修改 
属 主 


mkdir -p /opt/cloudera/parcels 
chown cloudera-scm:cloudera-scm /opt/cloudera/parcels 


4. 在 cdh1 上 局 动 cm server 


/opt/cm-5.7.0/etc/init.d/cloudera-scm-server start 








此 步骤 需要 运行 一 些 时 间 ， 用 下 面 的 命令 查看 月 动情 况 : 


tail -f /opt/cm-5.7.0/10g/cloudera-scm-server/cloudera-scm-serve 


5. 在 所 有 主机 上 启动 cm agent 


mkdir /opt/cm-5.7.0/run/cloudera-scm-agent 
chown cloudera-scm:cloudera-scm /opt/cm-5.7.0/run/cloudera-scm-a 


/opt/cm-5.7.0/etc/init.d/cloudera-scm-agent start 


6. 登录 cloudera manager 控 制 台 ， 安 装配 置 CDH5 及 其 
服务 

打开 控制 台 http://172.16.1.101:7180/， 显 示 “ 登 录 ” 页 面 。 

默认 的 用 户 名 和 密码 都 是 admin， 登 录 后 进入 欢迎 页 面 。 勾 选 许可 
协议 ， 单 击 “ 继 续 ”。 

进入 版 本 说 明 页 面 ， 如 图 4-6 所 示 。 保 持 不 变 ， 单 击 “ 继 续 ”。 
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图 4-6 版 本 说 明 页 面 





进入 服务 说 明 页 面 ， 单 击 “ 继 续 ”。 
进入 选择 主机 页 面 ， 如 图 4-7 所 示 。 全 选 cdh1、cdh2、cdh3、cdh4 四 
个 主机 ， 单 击 “ 继 续 ”。 

















图 4-7 选择 主机 页 面 


进入 选择 存储 库 页 面 ， 保 持 不 变 ， 单 击 “ 继 续 ”。 

进入 集群 安装 页 面 ， 单 击 “ 继 续 "”。 这 一 步 会 花费 一 些 时 间 ， 进 行 
CDH5 的 安装 。 

进入 验证 页 面 ， 单 击 * 完 成 ”。 

进入 集群 设置 页 面 ， 根 据 需要 选择 服务 ， 本 次 安装 选择 了 HDFS、 
Hive. Hue, Impala, Oozie. Sqoop ”2、YARN 等 几 项 服务 ， 单 击 “ 继 
2 


进入 自 定义 角色 分 配 页 面 ， 保 持 不 变 ， 单 击 “ 继 续 ”。 


进入 数据 库 设 置 页 面 ， 如 图 4-8 所 示 。Hive、Reports Manager, 
Oozie ”Server 三 个 数据 库 主机 都 填写 cdh2， 数 据 库 类 型 选择 MySQL， 数 
据 库 名 称 分 别 填写 hive、rman 和 oozie， 这 是 我 们 在 安装 配置 MySQL 时 
建立 的 三 个 数据 库 ， 用 户 名 、 密 码 按 建 库 时 的 信息 填写 ， 测 试 连接 成 功 
后 ， 单 击 “ 继 续 ”。 
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进入 首次 运行 页 面 , 等 待 运行 完 单 击 “继续 ”。 





图 4-9 Cloudera Manager 主 页 面 





至 此 ，CDH 5.7.0 安 装 完成 ， 主 机 和 和 角色 对 应 如 表 4-3 所 示 。 


表 4-3 ”CDH 服务 一 角色 一 主机 对 应 关系 


DataNode 











NameNode 





SecondaryNameNode 


Hive Hive Metastore Server 


HiveServer2 


Impala Catalog Server 





cdh3 
Impala StateStore 
Oozie Server cdh2 
JobHistory Server 
NodeManager cdh1 














ResourceManager 





4.4.4 Cloudera Manager 许 可 证 管理 


上 一 小 市 安 效 CDH 5.7.0 时 ， 在 版 本 说 明 页 面 有 三 个 选项 : Cloudera 
Express、Cloudera Enterprise 数 据 集 线 器 60 天 试用 版 和 Cloudera 
Enterprise. Cloudera Express 版 本 不 需要 许可 证 ， 试 用 版 使 用 的 是 60 天 的 
试用 许可 证 ; Cloudera Enterprise 需 要 许可 证 。 我 们 选择 的 是 默认 配置 的 
60 天 试用 版 。 如 果 到 了 60 天 期 限 ， 是 不 是 Cloudera Manager 束 完全 不 能 
FAS We? 本 小 节 就 来 介绍 一 下 Cloudera Manager 的 许可 证 管理 。 


Cloudera Enterprise， 也 就 是 所 谓 的 企业 版 有 如 下 Express 版 本 不 具有 
的 特性 : 





支持 LDAP (Lightweight Directory Access Protocol， 轻 量 级 目录 
访问 协议 ) 和 SAML (Security Assertion Markup Language， 安 全 
声明 标记 语言 ) 身份 认证 。Cloudera Manager 可 以 依赖 内 部 数据 
库 进 行 身 份 认 证 ， 企 业 版 还 文 持 通过 LDAP 和 SAML 等 外 部 服务 
进行 喘 份 认证 。 
浏览 和 还 原配 置 历史 。 无 论 何 时 ， 当 你 改变 并 保存 了 一 系列 关于 
服务 、 角 色 或 主机 的 配置 信息 ，Cloudera Manager 都 会 自动 保存 

前 一 个 版 本 的 配置 和 更 改 配置 的 用 户 名 。 这 样 就 可 以 浏览 以 前 的 
配置 ， 并 且 在 需要 时 可 以 回 深 到 以 前 的 配置 状态 。 
文 持 SNMP traps 报 警 和 用 户 定制 的 报警 脚本 。 妆 预制 定 阐 值 越界 
等 情况 出 现时 ， 可 以 在 任何 时 候 和 同 SNMP 管 理 器 报告 错误 情况 ， 
而 不 用 等 待 SNMP 管 理 器 的 再 次 轮 询 。 
备份 与 裔 溃 恢 复 。Cloudera Manager 企 业 版 提供 了 一 套 集 成 的 、 
易 用 的 、Hadoop 平 台 上 的 数据 保护 解决 方案 。Cloudera Manager 
允许 路 数据 中 心 的 数据 复制 ， 包 括 HDFS 里 的 数据 、Hive 表 中 的 
数据 、Hive 元 数据 、Impala 元 数据 等 。 即 使 遇 到 一 个 数据 中 心 都 
当 掉 的 情况 ， 仍 然 可 以 保证 这 些 关 键 数据 是 可 用 的 。 
能 够 建立 操作 报告 。 在 企业 版 Cloudera ”Manager 的 报告 页 面 ， 可 
以 建立 HDFS 的 使 用 报告 ， 包 括 每 个 用 户 、 组 或 者 目录 的 文件 数 
及 数据 大 小 等 信息 ， 还 可 以 报告 MapReduce 的 操作 情况 。 
x Clouds eft.  Cloudera ji —4- 与 Hadoop 平 台 完 全 集成 
的 数据 管理 和 安全 系统 ， 包 括 数据 的 审计 、 可 视 化 、 加 密 、 搜 
索 、 分 析 等 数据 管理 功能 

dM mei Ud Restart, History and Rollback 和 Send 

Diagnostic Data 操 作 命令 。 
提供 集群 使 用 报告 。 企 业 版 Cloudera Manager 的 集群 使 用 报告 页 
面 显 示 汇 总 的 YARN 和 Impala 作 业 使 用 信息 。 报 告 还 显示 CPU、 
内 存 的 使 用 情况 ， 基 于 YARN fair 调 度 器 的 资源 分 配 情况 ， 








Impala 碍 询 等 ， 可 以 配置 报告 的 时 间 范 围 。 


登录 Cloudera Managerji, WA EE o “许可 证 ”菜单 ， 就 访问 到 
许可 证 页 面 。 如 果 已 经 安装 了 许可 证 ， 该 页 面 将 显示 许可 证 的 状态 (如 
当前 是 否 有 效 ) 和 许可 证 的 属 主 、 密 钥 、 过 期 时 间 等 细节 信息 。 


如 果 企 业 版 的 许可 证 过 期 ，Cloudera Manager 仍 然 可 以 使 用 ， 只 是 
企业 版 特性 将 不 可 用 。 试 用 版 许可 证 只 能 使 用 一 次 ， 当 60 天 试用 期 满 ， 
或 者 手工 结束 试用 ， 将 不 能 再 次 开局 试用 。 试 用 结束 后 ， 企 业 版 特性 立 
即 不 可 用 ， 但 是 被 禁用 功能 的 相关 数据 和 配置 并 不 删除 ， 一 旦 安装 了 企 
业 版 许可 证 ， 这 些 功能 会 再 次 生效 。 

在 60 天 试用 期 即将 结束 前 ，Cloudera Manager 的 登录 页 面 会 给 出 试 
用 将 要 到 期 的 提示 。 此 时 可 以 在 到 期 前 的 任意 时 间 点 ， 手 工 终 止 
Cloudera Enterprise 数 据 集 线 器 版 的 试用 ， 有 具体 操作 步骤 如 下 : 








步骤 014 ”在 “许可 证 ”页 面 ， 单 击 “ 结 束 试用 ”并 确认 。 
步骤 024。 单 击 “ 集 群 ”-,“Cloudera Manager Service"， 打 开 Cloudera 
Manager 服 务 页 面 。 


#034 在 Cloudera Manager 服 务 页 面 单 击 “ 操 作 ”-, “EE”, HAS 
务 。 


步骤 044 ”重启 HBase、HDFS、Hive 等 配置 改变 的 相关 服务 。 





手工 终止 试用 后 ， 试 用 版 会 自动 变更 为 Cloudera Express 版 。 除 了 企 
业 版 特性 ， 其 他 Cloudera Manager 的 基本 功能 不 受 任 何 影响 。 如 果 购 买 
了 企业 版 许可 证 ， 可 以 从 Express 版 直接 升级 到 企业 版 。 只 需要 在 “许可 
证 ”页 面 单 击 * 上 载 许可 证 ?， 然 后 按照 癌 导 的 步骤 顺序 执行 即 可 。 





45 小结 


(1) 除了 开源 的 Apache Hadoop 以 外 ， 还 有 Cloudera、 
HortonWorks、MapR 三 个 主流 的 商业 Hadoop 发 行 版 本 。CDH 的 优点 在 
于 提供 了 包含 大 量 工 具 和 特性 的 用 户 友 好 界面 ， 缺 点 是 性 能 不 够 好 ， 速 
上 度 较 慢 。HDP 的 优势 在 于 和 它 是 唯一 文 持 Windows 平 台 的 Hadoop 版 本 ， 劣 
势 是 它 的 Ambari 管 理 界 面 过 于 简单 ， 没 有 提供 丰富 的 特性 。MapR 
Hadoop 优 点 是 速度 快 ， 没 有 单 点 故障 ， 缺 点 是 没有 好 的 用 户 界面 控制 


人 
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(2) 手工 安装 Apache “Hadoop 的 主要 步骤 包括 : 准备 集群 节点 主 
机 ， 安 装 Linux 操 作 系 统 ， 配 置 好 IP、 主 机 名 ， 做 好 集群 角色 (master, 
slave) 规划 ; 建立 运行 Hadoop 集 群 的 Linux 用 户 ; 在 hosts 中 添加 域名 解 
析 ; 安装 兼容 版 本 的 JDK; 配置 SSH 免 密码 ;编辑 主要 的 Hadoop 配 置 文 
件 ， 设 置 参数 ， 设 置 环 境 变 量 ，HDFS 初 始 化 ;启动 HDFS 和 YARN。 


(3) 为 了 解决 NameNode 的 单 点 问题 和 扩展 的 局 限 性 ， 在 Hadoop- 
0.23.0 版 本 新 增 了 HDFS ”Federation 功 能 。Federation 使 用 了 多 个 独立 的 
NameNode 及 命名 空间 ， 这 些 NameNode 之 间 是 彼此 分 离 的 。 也 就 是 说 ， 
它们 之 间 相 互 独立 且 不 需要 互相 协调 ， 各 自分 工 ， 管 理 自 己 的 区 域 。 

(4) 使 用 Cloudera Manager， 能 够 图 形 化 安装 和 部 车 CDH， 极 大 简 
化 了 集群 的 管理 和 维护 工作 。 有 三 种 方式 安装 CDH: 通过 Cloudera 
Manager 上 自动 安装 ;使 用 Cloudera Manager Parcels 或 Packages 安 装 ; 使 用 
Cloudera Manager Tarballs 手 工 安装 。 








(5) Cloudera ”Manager 许 可 证 有 Cloudera Express, Cloudera 
Enterprise 数 据 集线器 60 天 试用 版 和 Cloudera ”Enterprise 三 种 。Cloudera 
Enterprise 提 供 了 一 些 高 级 特性 和 功能 ， 其 许可 证 需要 购买 。60 天 试用 期 
满 或 者 在 试用 到 期 前 手工 结束 试用 后 ， 试 用 企业 版 自动 变更 为 Express， 
此 时 除了 企业 版 特性 ， 其 他 Cloudera Manager 的 基本 功能 的 使 用 不 受 任 
何 影响 。 





第 5 草 
所 Kettle 与 Hadoop > 


上 一 章 详细 介绍 了 Apache ”Hadoop 和 CDH 的 安装 ， 这 为 我 们 开启 
Hadoop 上 的 数据 仓库 之 旅 做 好 了 准备 。 在 一 个 数据 仓库 项 目 中 ， 开 发 阶 
段 最 关键 的 是 ETL 过 程 。 大 致 有 三 种 ETL 的 实现 途径 : 使 用 ETL 工 具 、 
使 用 特定 数据 库 的 SQL、 使 用 程序 语言 开发 自己 的 ETL 应 用 。 本 章 介 绍 
第 一 种 方式 。 我 们 将 使 用 Kettle 这 球 最 流行 的 ETL 工 具 操 作 Hadoop 上 的 
数据 。 


首先 概要 介绍 Kettle 对 大 数据 的 支持 ， 然 后 用 示例 说 明 Kettle 如 何 连 
接 Hadoop， 如 何 导入 导出 Hadoop 集 群 上 的 数据 ， 如 何 用 Kettle 执 行 Hive 
的 HiveQL 语 句 (HiveQL 将 在 6.2 节 作 简 要 介绍 ) ， 还 会 用 一 个 典型 的 
MapReduce 转 换 ， 说 明 Kettle 在 实际 应 用 中 是 怎样 利用 Hadoop 分 布 式 计 
算 框架 的 。 本 重 最 后 介绍 如 何在 Kettle 中 提交 Spark 作 业 。 








5.1 ” Kettle 概述 





Kettle 是 用 Java 语 言 开发 的 。 它 最 初 的 作者 Matt Casters 原 是 一 名 C 语 
言 程序 员 ， 在 着 手 开 发 Kettle 时 还 是 一 名 Java 小 和 白 ， 但 是 他 仅 用 了 一 年 
时 间 惑 开发 出 了 Kettle 的 第 一 个 版 本 。 虽 然 有 很 多 不 足 ， 但 这 个 版 本 毕 
竟 是 可 用 的 。 使 用 自己 并 不 熟悉 的 语言 ， 仅 凭 一己 之 力 在 很 短 的 时 间 里 
就 开发 出 了 复杂 的 ETL 系 统 工具 ， 作 者 的 开发 能 力 和 实践 精神 令 人 十 分 
佩服 。 后 来 Pentaho 公 司 获得 了 Kettle 源 代码 的 版 权 ，Kettle 也 随 之 更 名 为 
Pentaho Data Integration， 人 简称 PDI。 


Kettle 的 设计 原则 之 一 ， 就 是 尽量 减少 编程 ， 几 乎 所 有 工作 都 可 以 
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据 操作 ， 分 别 被 称 为 作业 和 转换 。 

作 籽 串 行 化 执行 一 系列 作业 项 ， 每 个 作业 项 中 封装 了 有 具体 的 数据 操 
作 。 例 如 ， 一 个 Kettle 大 数据 相关 的 作业 可 以 完成 以 下 的 工作 : 检查 新 
的 日 志文 件 是 否 存在 ， 将 源 端 的 文件 复制 到 HDFS;， 执行 一 个 
MapReduce 任 务 ， 将 Web 日 志 聚 合成 单 击 流 ， 并 将 单 击 法 数据 存储 到 一 
个 分 析 数 据 库 中 。 最 新 版 的 Kettle 作 业 中 包含 的 大 数据 相关 作业 项 如 表 
5-1 所 示 。 








表 5-1 Kettle 作 业 中 的 大 数据 作业 项 


Amazon EMR Job Executor 在 Amazon EMR 中 执行 MapReduce 作业 

Amazon Hive Job Executor 在 Amazon EMR 中 执行 Hive 作业 

Hadoop Copy Files 将 本 地 文件 上 传 到 HDFS， 或 者 在 HDFS 上 复制 文件 
Hadoop job executor 在 Hadoop 节点 上 执行 包含 在 JAR 文件 中 的 MapReduce 作业 
Oozie Job Executor 执行 Oozie 工作 流 











在 Hadoop 中 执行 基于 MapReduce 的 转换 
Pig Script Executor 在 Hadoop 集群 上 执行 Pig 脚本 
Sqoop Export 使 用 Apache Sqoop 将 HDFS 上 的 数据 导出 到 一 个 关系 数据 库 中 


Sqoop Import 使 用 Apache Sqoop 将 一 个 关系 数据 库 中 的 数据 导入 到 HDFS 上 
Start a PDI Cluster on YARN 在 Hadoop 节点 上 启动 一 个 由 carte 服务 器 组 成 的 集群 


{E Hadoop 节点 上 停止 一 个 由 carte 服务 器 组 成 的 集群 











一 个 Kettle 转 换 由 若干 步骤 组 成 ， 这 些 步 又 并 行 执行 ， 以 一 种 数据 
流 的 方式 操作 数据 列 。 数 据 列 通常 从 一 个 系统 流入 ， 经 过 Kettle 引 擎 的 
转换 形成 新 的 数据 列 ， 转 换 过 程 中 可 以 对 流入 的 数据 列 进行 计算 和 得 
选 ， 还 可 以 同 数 据 流 中 加 入 新 的 列 。 流 出 的 数据 被 发 送 到 一 个 接收 系 
统 ， 如 Hadoop 和 集群 、 数 据 库 或 Pentaho 的 报表 引擎 等 。 最 新 版 的 Kettle 转 
换 中 包含 的 大 数据 步骤 如 表 5-2 所 示 。 


X5-2 ” Kettle 转换 中 的 大 数据 相关 步 台 


RBA 


Cassandra input 从 一 个 Cassandra column family 中 读 取 数据 





Cassandra output 问 一 个 Cassandra column family 中 写 入 数据 


CouchDB Input 获取 CouchDB 数据 库 一 个 设计 文档 中 给 定 视图 所 包含 的 所 有 文档 


Hadoop File Input 读 取 存 储 在 Hadoop 集群 中 的 文本 型 文件 
Hadoop File Output 向 存储 在 Hadoop 集群 中 的 文本 型 文件 中 写 数据 


HBase input 从 HBase column family 中 读 取 数据 








向 HBase column family 中 写 入 数据 
HBase Row Decoder 对 HBase 的 键 / 值 对 进行 编码 


MapReduce Input I] MapReduce 输入 键 值 对 





MapReduce Output 从 MapReduce 输出 键 值 对 
MongoDB Input 读 取 MongoDB 中 一 个 指定 数据 库 表 的 所 有 记录 
MongoDB Output 将 数据 写 入 MongoDB 的 表 中 

作为 Cassandra SSTable 写 入 一 个 文件 系统 目录 








Kettle 的 设计 很 独特 ， 它 既 可 以 在 Hadoop 集 群 外 部 执行 ， 也 可 以 在 
Hadoop 集 群 内 的 节点 上 执行 。 在 外 部 执行 时 ，Kettle 能 够 从 HDFS、Hive 
和 HBase 抽 取 数 据 ， 或 者 向 它们 中 装载 数据 。 在 Hadoop 集 群 内 部 执行 
时 ，Kette 转 换 可 以 作为 Mapper 或 Reducer 任 务 执 行 ， 并 允许 将 Pentaho 
MapReduce 作 业 项 作为 MapReduce 的 可 视 化 编程 工具 来 使 用 。 后 面 我 们 
会 用 示例 演示 这 些 功能 。 








5.2 ”Kettle 连 接 Hadoop 


通过 提交 适当 的 参数 ，Kettle 可 以 连接 Hadoop 的 HDFS、 
MapReduce、Zookeeper、Oozie 和 Spark 服 务 。 在 数据 库 连 接 类 型 中 支持 
Hive、Hive2 和 Impala。 在 本 节 示 例 中 ， 我 们 只 配置 Kettle 连 接 HDFS 和 
Hive2. 


5.2.1 连接 HDFS 


要 使 Kettle 连 接 Hadoop 集 群 ， 需 要 两 个 操作 : 设置 一 个 Active 


Shim; 建立 并 测试 连接 。Shim 是 Pentaho 开 发 的 插件 ， 功 能 有 点 类 似 于 
一 个 适配器 ， 帮 助 用 户 连接 Hadoop。Pentaho 定 期 发 布 Shim， 可 以 从 
Pentaho 的 官方 网 站 查询 所 使 用 的 Kettle 版 本 支持 的 Shim。 使 用 Shim 能 够 
连接 不 同 的 Hadoop 发 行 版 本 ， 如 CDH、HDP、MapR 等 。 当 在 Kettle 中 
执行 一 个 大 数据 的 转换 或 作业 时 ， 默 认 会 使 用 设置 的 Active Shim. $45 
安装 Kettle 时 ， 并 没 Active Shim， 因 此 在 尝试 连接 Hadoop 集 群 前 ， 首 先 
要 做 的 就 是 选择 一 个 Active Shim， 选 择 的 同时 也 就 激活 了 此 Active 
Shim。 设 置 好 Active Shim 后 ， 再 经 过 一 定 的 配置 ， 就 可 以 测试 连接 了 。 
Kettle 内 建 的 工具 可 以 为 完成 这 些 工 作 提 供 帮 助 。 


1. 开始 前 准备 


在 配置 连接 前 ， 要 确认 Kettle 上 共有 访问 HDFS 相 关 目 录 的 权限 ， 访 问 
的 目录 通常 包括 用 户主 目录 以 及 工作 需要 的 其 他 目录 。Hadoop 管 理 员 应 
该 已 经 配置 了 允许 Kettle 所 在 主机 对 Hadoop 集 群 的 访问 。 除 权限 外 ， 还 
需要 确认 以 下 信息 : 


e Hadoop 集 群 的 发 行 版 本 〈 例 如 CDH5.7) 。 

。HDFS、MapReduce 或 Zookeeper 服 务 的 卫 地 址 和 端口 号 〈 这 个 示 
例 中 我 们 只 需要 HDFS 服 务 的 了 和 端口 号 ) 。 

。 如 果 要 使 用 Oozie， 需 要 知道 Oozie 服 务 的 URL。 


本 示例 的 环境 信息 如 下 。 


4 台 CentOS release 6.4 虚 拟 机 ， 了 PP 地 址 为 : 192.168.56.101、 
192.168.56.102、192.168.56.103、192.168.56.104。 


。 192.168.56.101 是 Hadoop 集 群 的 master， 运 行 NameNode 进 程 。 
e 192.168.56.102、192.168.56.103 是 Hadoop 的 slave， 运 行 DataNode 
进程 。 


e 192.168.56.104 25 22 T PentahollJKettle, #28 H 3* 7J/root/data- 


integration. 
Apache Hadoop 版 本 : 2.7.2. 
Kettle 版 本 : 6.0。 
HDFS 的 端口 号 是 9000〈 由 fs.defaultFS 参 数 所 定义 ) 。 


Hadoop 集 群 的 安装 配置 参考 4.2 节 。 
2. 配置 步骤 


(1) 复制 Hadoop 的 配置 文件 到 Kettle 的 相应 目录 下 。 
在 192.168.56.101 上 执行 以 下 命令 : 
scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.1 
integration/plugins/pentaho-big-data-plugin/hadoop-configuration 


scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.1 
integration/plugins/pentaho-big-data-plugin/hadoop-configuration 


下 面 的 配置 均 在 192.168.56.104 上 进行 。 
(2) 在 安装 Kettle 的 主机 上 建立 访问 Hadoop 集 群 的 用 户 。 
这 里 Hadoop 集 群 的 属 主 是 grid， 所 以 执行 以 下 命令 建立 相同 的 用 
Pu 


useradd -d /home/grid -m grid 
usermod -a -G root grid 





(3) 修改 Kettle 的 安装 目录 ， 并 将 属 主 设 置 为 grid。 


mv /root/data-integration /home/grid/ 
chown -R grid:root /home/grid/data-integration 


(4) 编辑 相关 配置 文件 。 


cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/h 


在 config.properties 文 件 中 添加 如 下 一 行 ， 不 使 用 身份 认证 (此 配置 
是 不 安全 的 ， 只 用 于 演示 目的 ) 。 





authentication.superuser.provider-zNO AUTH 
(5) fEKettlerP iz Active Shim. 
58014 打开 Kettle。 
步骤 024 ”选择 菜单 “工具 ”-,“Hadoop Distribution...”， 从 弹出 窗口 中 


可 以 看 到 ，Kettle 6.0 支 持 四 种 Shim， 这 里 选择 Cloudera CDH 5.4， 
如 图 5-1 所 示 ， 然 后 单 击 “OK”。 


Hadoop Distribution 





Active Shim: 
Amazon EMR 3.4 


HortonWorks HDP 2.2.x 
MapR 4.1.0 


© Help 


OK Cancel 





图 5-1 激活 Shim 
步骤 034 "Kette. 
(6) 配置 和 测试 连接 。 
新 建 一 个 作业 或 转换 ， 在 “ 主 对 象 树 ” 中 选中 “Hadoop cluster”, Ait 


选择 “New Cluster”"， 填 写 相 关 人 信息， 如 图 5-2 所 示 。 之 后 单 击 “ 测 试 "， 结 
果 如 图 5-3 所 示 ， 显 示 连 接 HDFS 成 功 。 















Hadoop cluster 


Cluster Name: 
[hadoop. locat 








口 Use MapR client 
HDFS 
Hostname: 
[192.168.56.101 je [9000 e 














Username: Password: 
| e | e 








JobTracker 
Hostname: Port: 


[ eC p 


ZooKeeper 
Hostname: Port: 
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Hadoop Cluster Test 
Results 


| J Active Shim Load 
Successfully loaded the cdh54 shim 





A Shim Configuration Verification 

The Hadoop File System URL matches the Active shim 
JS Hadoop File System Connection 

Successfully connected to host 
J User Home Directory Access 

Successfully read directory contents 
A Root Directory Access 

Successfully read directory contents. 
JS Verify User Home Permissions 

User has write and delete permissions for their home directory. 
X Ping Job Tracker / Resource Manager 

Hostname is required. 

Learn more 


X Oozie Host Connection 


Unable to connect to Oozie. 


Learn more 


X Zookeeper Ensemble Connection 
One or more Zookeeper hostnames were not set. 
Learn more 


© Help 














图 5-3 ”Hadoop 集 群 测试 


关闭 “Hadoop Cluster Test” 窗 口 后 ， 单 击 *Hadoop cluster” 窗 口 的 “ 确 
定 ” 按 钮 ， 至 此 就 建立 了 一 个 Kettle 可 以 连接 的 Hadoop 集 群 。 


图 5-2 的 Hadoop 集 群 配置 窗口 中 的 选项 及 定义 说 明 如 下 : 





Cluster Name: 定义 要 连接 的 集群 名 称 。 

Use MapR client: 表示 连接 的 是 MapR 集 群 。 如 果 选 中 ，HDEFS 和 
JobTracker 段 束 会 被 禁用 ， 因 为 配置 MapR 连 接 不 需要 这 些 参 数 。 
Hostname (HDFSEX) : Hadoop 集 群 中 NameNode 节 点 的 主机 

名 。 

Port (CHDFS 段 ) : Hadoop 集 群 中 NameNode 节 点 的 端口 号 。 
Username (CHDFS 段 ) : HDFS 的 用 户 名 ， 通 过 宿主 操作 系统 给 
出 。 

Password (HDFSE) : HDFS 的 密码 ， 通 过 答 主 操作 系统 给 出 。 
Hostname (JobTrackerEt) : Hadoop 集 群 中 JobTracker 节 点 的 主 
机 名 。 如 果 有 独立 的 JobTracker 节 点 ， 在 此 输入 ， 否 则 使 用 HDFS 
的 主机 名 。 

Port 〈JobTracker 段 ) : Hadoop 集 群 中 JobTracker 节 点 的 端口 号 ， 
不 能 与 HDFS 的 端口 号 相同 。 

Hostname 〈ZooKeeper 段 ) : Hadoop 集 群 中 Zookeeper 节 点 的 主机 
名 ， 只 有 在 连接 Zookeeper 服 务 时 才 需 要 。 

Port 〈ZooKeeper 段 ) : Hadoop 集 群 中 Zookeeper 节 点 的 端口 号 ， 

只 有 在 连接 Zookeeper 服 务 时 才 需 要 。 

URL (Oozie 段 ，: Oozie WebUI 的 地 址 ， 只 有 在 连接 Oozie 服 务 
时 才 需 要 。 





如 果 是 首次 配置 Kettle 连 接 Hadoop， 难 免 会 出 现 这 样 那样 的 问题 ， 
Pentaho 文 档 中 列 出 了 配置 过 程 中 的 常见 问题 及 其 通用 解决 方法 ， 如 表 5- 


3 所 示 。 和 希望 这 能 对 Kettle 或 Hadoop 新 手 有 所 帮助 。 


表 5-3 ”Kettle 访 问 Hadoop 时 的 常见 错误 





症状 通常 原因 通用 解决 方法 
Shim 和 配置 问题 





No shim 没有 选择 shim. 检 fi plugin.properties 文 件 中 active. 
shim 安装 位 置 错误 。 hadoop.configuration 参数 的 值 是 和 否 与 pentaho- 
plugin.properties 文件 中 big-data-plugin/hadoop-configurations 下 的 目录 名 


没有 正确 的 shim 名 称 。 相 匹 配 。 
确认 shim 安装 在 正确 的 位 置 《默认 安装 在 
Kettle 安装 目录 的 plugins/pentaho-big-data-plugin 
了 月 录 下 2 8 
参考 Pentaho “Set Up Pentaho to Connect to a 
Hadoop Cluster” 文 档 ， 确 认 shim 插件 的 名 称 和 








CER) 


Shim doesn't load 没有 安装 许可 证 。 e 参考 Pentaho "required licenses are installed” X 
Kettle 版 本 不 支持 装载 档 ， 验 证 许可 证 安装 ， 并 且 确 认 许 可 证 没有 过 
的 shim. 期 。 
如 果 选 择 的 是 MapR 参考 Pentaho “Components Reference ”文档 ， 
shim， 客 户 端 可 能 没有 验证 使 用 的 Kettle 版 本 所 支持 的 shim。 
正确 安装 。 参考 Pentaho “Set Up Pentaho to Connect to an 
配置 文件 改变 导致 错 Apache Hadoop Cluster” 文 档 ， 检 查 配 置 文件 。 
误 。 如 果 连 接 的 是 MapR， 检 查 客 户 端 安装 ， 然 后 重 
启 Kettle 后 再 测试 连接 。 
如 果 该 错误 持续 发 生 ， 文 件 可 能 损坏 ， 需 要 从 
Pentaho 官网 下 载 新 的 shim 文件 
The file system's *-site.xml 文件 配置 错误 参考 Pentaho “Set Up Pentaho to Connect to an 
URL does not match Apache Hadoop Cluster” 文 档 ， 检 查 配 置 文件 ， 


the URL in th = = 
i s p e 主要 是 core-site.xml 3c FJ T He E TE f 
configuration file 


连接 问题 
Hostname incorrect 没有 指定 主机 名 。 。 验证 主机 名 /IP 地 址 是 否 正确 。 


or not resolving | 。 主机 名 /IP 地 址 错误 。 检查 DNS BR hosts 文件， 确认 主机 名 解析 正确 
l 

me 主机 名 没有 正确 解析 

Port name is incorrect 没有 指定 端口 号 。 验证 端口 号 是 否 正 确 。 


端口 号 错误 确认 Hadoop 集群 是 否 启用 了 HA， 如 果 是 ， 则 
不 需要 指定 端口 号 


被 防火 墙 阻止 。 检查 防火 墙 配置 ， 并 确认 没有 其 他 网 络 问题 
其 他 网 络 问题 


目录 访问 或 权限 问题 
Can't access directory 认证 或 权限 问题。 确认 连接 使 用 的 用 户 对 被 访问 的 目录 有 读 、 
目录 不 在 集群 上 写 ， 或 执行 权限 。 
检查 集群 的 安全 设置 (如 dfs.permissions 等 ) 是 
否 允 许 shim 访问 。 
验证 HDFS 的 主机 名 和 端口 号 是 否 正确 
Can't create, read, 认证 或 权限 问题 确认 用 户 已 经 被 授予 目录 的 执行 权限 
update, or delete files 检查 集群 的 安全 设置 (如 dfspermissions ^5) 是 
or directories 否 允 许 shim 访问 。 


验证 HDFS 的 主机 名 和 端口 号 是 否 正 确 





5.2.2 ”连接 Hive 


Kettle 把 Hive 当 作 一 个 数据 库 ， 文 持 连 接 Hive Server 和 Hive Server 
2， 数 据 库 连 接 类 型 的 名 字 分 别 为 Hadoop Hive 和 Hadoop Hive 2. 

Hive Server 有 两 个 明显 的 问题 ， 一 是 不 够 稳定 ， 经 常会 英名 奇妙 地 
假死 ， 导 致 客户 端 所 有 的 连接 都 被 挂 起 。 二 是 并 发 性 文 持 不 好 ， 如 果 一 
个 用 户 在 连接 中 设置 了 一 些 环境 变量 ， 绑 定 到 一 个 Thrift 工 作 线程 〈 关 
于 Hive 的 Thrift 服 务 将 在 第 8 章 做 介绍 ) ， 当 该 用 户 断 开 连 接 ， 男 一 个 用 
户 也 创建 了 一 个 连接 ， 他 有 可 能 也 被 分 配 到 之 前 的 线程 ， 复 用 之 前 的 配 
置 。 这 是 因为 Thrift 不 文 持 检 测 客户 端 是 否 断 开 连接 ， 也 就 无 法 清除 会 
话 的 状态 信息 。Hive Server 2 的 稳定 性 更 高 ， 并 且 已 经 完美 文 持 了 会 
话 。 从 长 远 来 看 都 会 以 Hive Server 2 作为 首选 。 

这 里 演示 的 示例 就 是 连接 Hive 2。 我 们 先 在 Hadoop 和 集群 中 安装 
Hive， 然 后 在 Kettle 中 建立 一 个 Hadoop Hive 2 类 型 的 数据 库 连 接 。 


1. 安装 Hive 
(1) 安装 配置 Hadoop， 在 集群 的 所 有 节点 上 设置 好 Hadoop 相 关 环 
境 变 量 ， 参 见 4.2 节 。 


(2) 下 载 以 下 安装 包 。 由 于 要 在 MySQL 中 存储 Hive 元 数据 ， 因 此 
除了 Hive 安 装 包 外 ， 还 需要 安装 MySQL 数 据 库 及 其 JDBC 驱 动 程序 。 


mysql-5.7.10-linux-glibc2.5-x86 64 
apache-hive-1.2.1-bin.tar.gz 
mysql-connector-java-5.1.38.tar.gz 


因为 所 有 主机 都 已 经 设置 了 Hadoop 相 关 的 环境 变量 ， 所 以 以 下 操作 
可 以 在 Hadoop 集 群 中 的 任 一 节点 主机 上 执行 。Hive 通 过 环境 变量 找到 
Hadoop 的 配置 文件 ， 读 取 其 中 的 配置 ， 从 而 连接 到 HDFS 和 YARN。 


(3) 安装 MySQL。 


# 解压 缩 


cd /home/grid 

tar -zxvf mysql-5.7.10-linux-glibc2.5-x86 64.tar.gz 

# 建立 软 连接 

ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86 64 mysql 
# 建立 数据 目录 

mkdir /home/grid/mysql/data 

# 编辑 配置 文件 一 / ,my.cnf 内 容 如 下 : 

[mysqld] 

basedir=/home/grid/mysql 

datadir=/home/grid/mysql/data 
log_error=/home/grid/mysql/data/master.err 
log_error_verbosity=2 

# 初始 化 安装 ， 并 记 下 初始 密码 

mysqld --defaults-file-/home/grid/.my.cnf --initialize 

# 启动 MySQL 

mysqld --defaults-file-/home/grid/.my.cnf --user=grid & 
# 登录 MySQL， 修 改 初始 密码 

mysql -u root -p 

mysql» ALTER USER USER() IDENTIFIED BY 'new password'; 
mysql» exit; 

# 在 /etc/profile 中 添加 环境 变量 
export PATH=$PATH: /home/grid/mysql/bin 














(4) 安装 配置 hive。 


# 解压 缩 
cd /home/grid 
tar -zxvf apache-hive-1.2.1-bin.tar.gz 
# 建立 软 连接 
ln -s /home/grid/apache-hive-1.2.1-bin hive 
# 建立 临时 目录 
mkdir /home/grid/hive/iotmp 
# 建立 配置 文件 hive-site .xml 
cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site. 
# 新 建 配置 文件 hive-site,xmlLl， 内 容 如 下 ; 
<?xml version="1.0" encoding-"utf-8" standalone="no"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 

<!-- 配置 MySQL 连 接 串 ， 如 果 没 有 hive 数 据 库 则 建立 ; 

这 里 MySQL 与 Hive 安 装 在 同一 台 主 机 上 ， 因 此 使 用 本 机 IP 地 址 --> 

«property» 
<name>javax.jdo.option.ConnectionURL</name> 























«value»jdbc:mysq1://127.0.0.1:3306/hive?createDatabaseIfNotExist 
> 
</property> 
<!-- 配置 JDBC 驱 动 - -> 


«property» 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 

</property> 

«1-- 连接 MySQL 使 用 的 用 户 名 --> 

<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 








</property> 
«1-- 连接 MySQL 使 用 的 密码 --> 
<property> 


<name>javax.jdo.option.ConnectionPassword</name> 
<value>new_password</value> 











</property> 
<!-- 在 hive 命 令 行 提示 符 中 显示 当前 数据 库 --> 
«property» 


<name>hive.cli.print.current.db</name> 
<value>true</value> 
</property> 

</configuration> 

# 复制 JDBC 驱 动 到 Hive 的 1ib 目 录 

tar -zxvf mysql-connector-java-5.1.38.tar.gz 

cp /home/grid/connector/mysql-connector-java-5.1.38-bin.jar /hom 

# 在 /etc/profile 中 添加 环境 变量 

export HIVE HOME-/home/grid/hive 

export PATH=$PATH: $HIVE_HOME/bin 

# 重新 登录 Liunx， 运 行 hive 命 令 行 ， 执 行 show databases 命 令 ， 结 果 如 下 所 示 : 

hive» show databases; 

OK 

default 

Time taken: 0.694 seconds, Fetched: 1 row(s) 





可 以 看 到 ， 初 始 安装 后 ，Hive 只 有 一 个 default 数 据 库 。 至 此 ，Hive 
1.2.1 安 装 完毕 。 








2. Kettle 5.1.0 连 接 Apache Hive 1.2.1 


安装 好 了 Hadoop、Hive 和 Kettle， 接 下 来 测试 Kettle 5.1.0 连 接 
Apache Hive 1.2.1， 步 又 如 下 。 


(1) 在 Hive 中 建立 一 个 名 为 test 的 数据 库 ， 用 于 后 面 的 数据 库 连 接 
配置 。 


create database test; 


(2) 配置 Hive Server2， 在 hive-site.xml 中 添加 如 下 4 个 属性 。 


<!-- 配置 hive server2 的 主机 IP 地 址 --> 

<property> 
<name>hive.server2.thrift.bind.host</name> 
<value>192.168.56.101</value> 

</property> 

<!-- 配置 hive server2 的 主机 端口 号 --> 

<property> 
<name>hive.server2.thrift.port</name> 
<value>10001</value> 

</property> 

<!-- 配置 最 小 工作 线程 数 --> 

<property> 
<name>hive.server2.thrift.min.worker.threads</name> 
<value>5</value> 

</property> 

<!-- 配置 最 大 工作 线程 数 - -> 

<property> 
<name>hive.server2.thrift.max.worker.threads</name> 
<value>500</value> 

</property> 


(3) 局 动 Hive Server2. 


$HIVE HOME/bin/hiveserver2 


(4) 修改 kettle 的 配置 文件 。 


将 Kettle 安 装 目 录 下 plugins/pentaho-big-data-plugin/plugin.properties 


文件 中 的 
active.hadoop.configuration 参 数 修改 成 下 面 的 值 : 


active.hadoop.configuration=hdp20 





说 明 : 


这 步 很 重要 ， 一 定 要 根据 实际 情况 进行 配置 ， 这 个 示例 连 


接 的 是 Apache Hive 1.2.1， 所 以 要 设置 成 hdp20。 如 果 设 置 不 当 ， 连 接 
Hive 时 会 报 Error connecting to database: (using class 


org.apache.hadoop.hive.jdbc.HiveDriver) 类 似 的 错误 。 
(5) 启动 Kettte， 配 置 并 测试 数据 库 连 接 。 


打开 Kettle， 新 建 一 个 作业 或 转换 ， 在 “View” 标 签 页 选择 “Database 
connections”， 碳 键 选 择 “new”， 在 弹出 窗口 中 填写 相关 信息 ， 如 图 5-4 所 
Re 
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图 5-4 数据库 连 接 配置 


图 5-4 的 数据 库 连接 配置 窗口 中 的 选项 及 定义 说 明 如 下 : 


e Connection Name: 定义 连接 名 称 。 

。 Connection Type: 连接 类 型 选择 Hadoop Hive 2。 

e Host Name: 主机 名 ， 填 写 hive.server2.thrift.bind.host 参 数 的 值 。 
e Datebase Name: 数据 库 名 称 ， 这 里 填写 test， 如 果 为 空 ， 则 碍 询 


的 是 default 库 。 
e Port Number: mO 5, J&*jhive.server2.thrift.portZ XH) [8 .- 
e User Name: 用 户 名 ， 这 里 为 空 。 
e Password: 密码 ， 这 里 为 空 。 
单 击 Test， 应 该 弹出 成 功 连接 窗口 ， 显 示 内 容 如 下 : 


正确 连接 到 数据 库 [hiveconn] 








主机 名 : 192.168.56.101 
端口 : 10001 
数据 库 名 :test 


5.3 导出 导入 Hadoop 集 群 数据 


本 小 节 用 两 个 示例 演示 如 何 使 用 Kettle 导 出 导入 Hadoop 数 据 。 第 一 
个 示例 用 一 个 Kettle 转 换 将 HDFS 上 的 文本 文件 导出 到 本 地 MySQL 数 据 
库 。 第 二 个 示例 用 一 个 Kettle 作 业 将 数据 导入 到 Hive 表 。 示 例 中 使 用 的 
集群 是 4.2 节 中 所 安装 的 Apache “Hadoop，Hive 是 5.2 节 中 所 安装 的 Hive 
1.2.1。 已 经 按照 5.2 节 说 明 的 方法 ， 在 Kettle 中 定义 了 Hadoop 集 群 和 Hive 
数据 库 连 接 。 将 本 地 数据 导入 HDFS， 或 者 导出 Hive 中 的 数据 也 是 可 以 
的 ， 有 兴趣 的 读者 可 自行 实验 。 








5.3.1 把 数据 从 HDFS 抽 取 到 RDBMS 

出 于 演示 目的 ， 本 示例 的 转换 只 包含 “Hadoop File Input" fl"Table 
Output” 两 个 步骤 。 

CD 从 下 面 的 地 址 下 载 数据 文件 。 


http://wiki.pentaho.com/download/attachments/23530622/weblogs aggre 
version- 1&modificationDate-1327067858000 


这 是 Pentaho 提 供 的 一 个 压缩 文件 ， 其 中 包含 一 个 名 为 


weblogs_aggregate.txt 的 文本 文件 ， 文 件 中 有 36616 行 记录 ， 每 行 记 录 有 4 
列 ， 分 别 表 示 卫 地 址 、 年 份 、 月 份 、 访 问 页 面 数 ， 前 5 行 记 录 如 下 。 我 
们 使 用 这 个 文件 作为 最 初 的 原始 数据 。 


0.308.86.81 2012 07 1 
0.32.48.676 2012 01 3 
©.32.85.668 2012 07 8 
0.45.305.7 2012 01 1 
0.45.305.7 2012 02 1 


(2) 用 下 面 的 命令 把 解压 缩 后 的 weblogs_aggregate.txt 文 件 上 传 到 
HDFS 的 /user/grid/aggregate_mr/ 目 录 下 。 


hadoop fs -put weblogs aggregate.txt /user/grid/aggregate mr/ 
步骤 01 4 打开 Kettle， 新 建 一 个 包含 两 个 步骤 的 转换 ， 如 图 5-5 所 


ZN o 


pta 


Hadoop File Input Table output 
图 5-5 ”把 数据 从 HDFS 抽 取 到 RDBMS 的 转换 


步骤 02 / 编辑 “Hadoop File Input” 步 又， 如 图 5-6 一 图 5-8 所 示 。 


Hadoop File Input 


文件 、 内 容 | 错误 处 理 | 过 滤 | 字段 
选中 的 文件 : x 
^  $ Environment File/Folder 通配符 要 求 包含 子 目录 








从 上 一 步骤 获取 文件 名 
从 以 前 的 步 又 接受 文件 名 O 


确定 (9) 预览 记录 











图 5-6 Hadoop File Input 步 又 的 “文件 ”标签 









Hadoop File Input 


DREH (ES 





文件 | 内 容 C 错 误 处 理 | 过 滤 | 字段 








文件 类 型 [egy v] E 
隔 符 | | le [Insert TAB 








文本 限定 符 R 








逃逸 字符 | 
头 部 口 
尾部 口 
包装 行 ? 口 
分 页 布局 (printout)? 口 
























压缩 None v| 
没有 空 行 y 
在 输出 包括 字段 名 ? O 
输出 包含 行 数 ? 口 
格式 unix 加 
了 [e] 


| meo || mezz || mao | 





图 5-7 Hadoop File Input IRH“ VJ A pp 





Hadoop File Input 


步 绝 名 称 E 
文件 [内容 | 错误 处 理 | 过 滤 | 字段 
^ A | 类 型 (MX | 位置 KE 精度 货 和 小 数 | 分组。 | Nullif RA AMTTSSAX | 重复 | 
1 client_ip | String | | 115 i i$ | | " = i | 不 去 掉 空格 i8 
2| year jInteger # | 15 ls i | | | “| 不 去 掉 空 格 = 
3| monthnum integer |# | 15 EEE n. m | 不 去 掉 空格 S 
4| pageviews Integer | # i 15 i$ | | | 不 去 掉 空格 5 
获取 字段 | 
© Help melo) || 预览 记录 取消 (C) 








图 5-8 Hadoop File Input 步 又 的 “字段 ”标签 
说 明 : 


e 在 “文件 ”标签 里 ，“Environment” 列 选择 “Static”， 文 件 选择 我 们 刚 
上 传 到 HDFS_ 上 /musevgrid/aggregate_mrweblogs_aggregate.txt。 

e 在“ 内容” 标签 里 ， 文 件 类 型 选择 CSV， 以 tab 作 为 列 分 隔 符 〈 单 
击 “Insert TAB” 按 钮 ) , “格式 ”选择 “Unix”。 

o 在 “字段 ?标签 里 ， 定 义 与 文件 对 应 的 列 的 名 称 、 类 型 及 其 他 属 
性 。 





步骤 034 iTable Output 步 又 ， 如 图 5-9 所 示 。 




















ARE [IE | 

sieme [mysal tocar | [v fia... ae... | | Wizard... 

Eat | 9 | 浏览 (B)... | 

目标 表 [aggregate hdfs 9 | 浏览 (B)...| 

提交 记录 数 [1000 le 
裁剪 表 [D 


指定 数据 库 字段 O 
uon. 数据 库 字 段 | 














表 分 区 数据 O 
p 
ERRERA v) 
表 名 定义 在 一 个 字段 里 ? C1 
e 
存 使 表 名 字段 Y 
(© Help| meo || mA) | sq | 


图 5-9 ”MySQL 表 输 出 
说 明 : 
e “mysql_local” 是 已 经 建 好 的 一 个 本 地 MySQL 数 据 库 连 接 ， 设 置 如 


图 5-10 所 示 。 
e. “数据 库 字 段 " 标 签 不 需要 设置 。 


Database Connection 





B Connection Name 
Advanced 




















mysql local 
Options Settings 
x v in 
Pooling Connection Type ` : 
Throrrmix 习 | Host Name: 
Clustering j 
Ingres localhost o 
Ingres VectorWise Database Name: 
Intersystems Cache 
xcd - test o 
KingbaseES - 
LucidDB 2 Port Number: 
MS Access = || 3306 o 
MS SQL Server User Name; 
MS SQL Server (Native) root e 
MaxDB (SAP DB) Password: 
MonetDB 
s.s... le 
Access: F) Use Result Streaming Cursor 
PB WA ee 
ODBC 
JNDI 
测试 特征 列表 浏览 


DK Cancel 


图 5-10 mysql locat Ji PE XE HZ 


步 最 04 在 本 地 MySQL 中 执行 下 面 的 SQL 语 句 建立 目标 表 。 


use test; 

create table aggregate hdfs ( 
client ip varchar(15), 
year smallint, 
month num tinyint, 
pageviews bigint 


); 
步骤 05 人 保存 并 执行 转换 。 


ROGA 转换 成 功 执行 后 ， 碍 询 MySQL 表 ， 结 果 如 下 。 可 以 看 到 ， 
数据 已 经 从 HDFS 抽 取 到 了 MySQL 表 中 。 


mysql» select count(*) from test.aggregate hdfs; 
T 


ooeseosesoc 十 
| count(*) | 
tbe —— 十 
| 36616 | 
tbo —— 十 


1 row in set (0.01 sec) 


mysql> select * from test.aggregate hdfs limit 5; 


qT---2-----2- T----2-- T----2-2-- T----2--2-- 十 
| client ip | year | month num | pageviews | 
fee ee ee eee T------ Te-lli2-222-n T2122 十 
| 0.308.86.81 | 2012 | 7 | 1 | 
| 0.32.48.676 | 2012 | 1 | a | 
| 0.32.85.668 | 2012 | 7 | 8 | 
| 0.45.305.7 | 2012 | 1 | 1 | 
[50:545 305 7 | 2012 | 2 | 1 | 
T2222 T----- T2222. T-----22-- 十 
rows in set (0.00 sec) 


5.3.2 ”向 Hive 表 导入 数据 


Hive 默 认 时 不 能 进行 行 级 插入 的 ， 也 就 是 说 默认 时 不 能 使 用 insert 
into ... values 这 种 SQL 语句 辐 Hive 插 入 数据 。 通 种 Hive 表 数据 导入 方式 有 
以 下 两 种 : 








e 从 本 地 文件 系统 中 导入 数据 到 Hive 表 ， 使 用 的 语句 是 : load data 
local inpath 目 录 或 文件 into table 表 名 。 

e 从 HDFS 上 导入 数据 到 Hive 表 ， 使 用 的 语句 是 : load data inpath H 
录 或 文件 into table 表 名 。 


再 有 数据 一 旦 导入 Hive 表 ， 默 认 不 能 进行 更 新 和 删除 的 ， 只 能 向 表 
中 追加 数据 或 者 用 新 数据 整体 覆盖 原来 的 数据 。 要 删除 表 数 据 只 能 执行 
truncate 或 者 drop table 操 作 ， 这 实际 上 是 删除 了 表 所 对 应 的 HDFS 上 的 数 
据 文件 或 目录 。 


Kettle 作 业 中 的 “Hadoop Copy Files” 作 业 项 可 以 将 本 地 文件 上 传 至 
HDFS。 下 面 就 用 一 个 示例 说 明 ， 使 用 “Hadoop Copy Files” 回 Hive 表 导入 
数据 ， 作 业 执 行 的 效果 与 l0ad data local inpath 语 句 相 同 。 


C1) 从 下 面 的 地 址 下 载 数据 文件 。 


http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse 
version=1&modificationDate=1327068013000 











这 是 Pentaho 提 供 的 一 个 压缩 文件 ， 其 中 包含 一 个 名 为 
weblogs_parse.txt 的 文本 文件 ， 它 模拟 一 个 web 访问 日 志 记录 。 文 件 中 有 
445454 行 记录 ， 每 行 记录 有 16 列 。 我 们 使 用 这 个 文件 作为 本 地 数据 源 。 

(20 把 解压 缩 后 的 weblogs_parse.txt 文 件 保存 到 Kettle 所 在 主机 
的 home/grid/data-integration/test 目 录 下 。 


(3) 建立 一 个 作业 ， 将 文件 导入 到 hive 表 中 。 





步骤 01 4 执行 下 面 的 HiveQL 语 句 ， 在 Hive 的 test 库 中 建立 一 个 名 为 
weblogs 的 表 ， 字 段 对 应 文本 文件 中 的 列 ， 文 件 格式 使 用 默认 的 文 
本 格式 ， 以 TAB 作为 列 间 分 隔 符 。 








create table test.weblogs ( 


client ip string, 
full request date string, 
day string, 
month string, 
month num int, 
year string, 
hour string, 
minute string, 
second string, 
timezone string, 
http verb string, 
uri string, 
http status code string, 

bytes returned string, 
referrer string, 
user agent string) 


row format delimited 
fields terminated by '\t'; 


步骤 024。 打开 Kettle， 新 建 一 个 作业 ， 如 图 5-11 所 示 。 





EF} ea) 
START Hadoop Copy Files 
图 5-11 Hadoop fill x: f FE My. 











步骤 034 编辑 “Hadoop Copy Files” 作 业 项 ， 如 图 5-12 所 示 。 


^ # Source Bw 3X PH BS 
| Locel [ flc // hor 


1 ce ne/gridjdete inbegraltor/test varehouse/t 


Destination Eny Bax S/S 
hodoop local] | /usez/hive^ 





图 5-12 Hadoop Copy Files 作 业 项 


说 明 : 





Source Env: 选择 “Local”， 表 示 本 地 文件 或 目录 。 

源 文件 / Ask: 填写 本 地 文件 所 在 路 径 。 

通配符 : 填写 “人 .qtxt”， 表 示 任 何以 txt 为 后 缀 的 文件 。 
Destination Env: 选择 “hadoop_local”， 它 是 已 经 建立 好 的 Hadoop 
Clusters 连 接 ， 建 并 过 程 参 考 5.2 市 。 

目标 文件 / 目录 : 填写 “userhive/warehouse/test.db/weblogs”， 是 
一 个 HDFS 目 录 。mserhive/warehouse 是 默认 的 “数据 仓库 ?路径 ， 
test.db 是 数据 库 目 录 ，weblogs 是 表 目 录 。 默 认 情 况 下 ，Hive 总 是 
将 创建 的 表 目 录放 置 在 这 个 表 所 属 的 数据 库 目 录 之 后 。 但 default 
数据 库 是 个 例外 ， 其 在 /user/hive/warehouse 下 并 没有 对 应 一 个 数 
据 库 目录 。 因 此 default 数 据 库 中 的 表 目 录 会 直接 位 

T /user/hive/warehouse H 3€ Z. Jf o 











步 邓 04 和 《。 保存 并 执行 作业 。 


步骤 054 ”作业 成 功 执 行 后 ， 在 Hive 里 查询 test.weblogs 表 ， 结 果 如 下 
所 示 。 


hive» select count(*) from test.weblogs; 
445454 
hive» 


可 以 看 到 ， 同 test,weblogs 表 中 导入 了 445454 条 数据 。 
5.4 执行 Hive 的 HiveQL 语句 


在 这 个 示例 中 演示 如 何 用 Kettle 执 行 Hive 的 HiveQL 语 句 。 我 们 在 上 
一 节 建 立 的 weblogs 表 上 执行 聚合 查询 ， 同 时 建立 一 个 新 表 保 存 查 询 结 
果 。 

(1) 建立 hive 表 ， 装 载 原始 数据 (上 一 节 已 经 完成 )。 
(2) 建立 一 个 作业 ， 查 询 hive 表 ， 并 将 聚合 数据 写 入 一 个 新 的 hive 
*. 


步骤 01h。 新 建 一 个 Kettle 作 业 ， 只 有 “START” 和 “SQL” 两 个 作业 项 ， 
如 图 5-13 所 示 。 





[E] ———1&] 


START SQL 
图 5-13 ”执行 Hive HiveQL 语 名 的 作业 








步骤 024 建立 hive 的 数据 库 连 接 ， 命 名 为 "hive_101”。 配 置 过 程 参 考 
52 D 

步骤 03 4 共享 数据 库 连 接 (可 选 ) 。 在 “ 主 对 象 树 ”中 选中 “DB 连 
fe” >“hive_101”， 碳 击 ， 在 弹出 菜单 中 选择 “共享 ”。 共 享 的 数据 库 
连接 可 以 被 其 他 转换 或 作业 使 用 。 

步骤 044 编辑 “SQL” 作 业 项 ， 如 图 5-14 所 示 。 

















作业 项 名 称 | 


BIERE [hive 101] v | 编辑... | | 新 建 …| | wizard... | 


从 文件 中 得 到 的 SQL 口 





e 
将 SQL 脚本 作为 一 条 语句 发 送 口 

feo MA 口 
SQL 脚本 : 











| 
47 150 
© Help 确定 (Q) || WAO | 





图 5-14 SQL 作业 项 


说 明 : 


。 数据 库 连接 选择 “hive_101”。 
. SQL 脚本 如 下 : 


create table 


weblogs agg 
as 


select 


client ip, year 


, month 


, month num, count(*) 


from 


weblogs 
group by 


client ip, year 
, month 


, month num; 


步骤 05 保存 并 执行 作业 ， 作 业 成 功 执行 后 ， 检 查 hive 表 ， 结 果 如 


下 所 示 。 


hive> select count(*) from test.weblogs agg; 


36616 
hive» 


可 以 看 到 weblogs_agg 表 中 已 经 保存 了 全 部 的 聚合 数据 。 








5.5 ”MapReduce 转 换 示例 


上 一 市 我 们 只 用 一 句 HiveQL 就 生成 了 聚合 数据 ， 本 示例 使 
用 “Pentaho MapReduce” 作 业 项 完成 相似 的 功能 ， 把 细节 数据 汇总 成 聚合 
数据 集 。 当 给 一 个 关系 型 数据 仓库 或 数据 集 市 准备 待 抽取 的 数据 时 ， 这 
是 一 个 稼 见 的 使 用 场景 。 我 们 把 格式 化 的 weblogs_parse.txt 文 件 作 为 细 


节 数 据 ， 目 标 是 建立 一 个 聚合 数据 文件 ， 其 中 包含 以 了 P 和 年 月 分 组 统计 
的 PV 数 。 


(1) 用 下 面 的 命令 把 weblogs_parse.txt 文 件 上 传 到 HDFS 
的 /user/grid/parse/ 目 录 下 《因为 只 是 功能 演示 ， 本 示例 只 在 文件 中 保留 
了 前 100 行 数据 ) 。 





hadoop fs -put weblogs parse.txt /user/grid/parse/ 


(2) 建立 一 个 用 于 Mapper 的 转换 。 


步骤 014《。 新 建 一 个 转换 ， 如 图 5-15 所 示 ，。 





Ho 
oy 





MapReduce Input Split Fields User Defined Java Expression MapReduce Output 


图 5-15 “Mapper 转 换 











该 转换 由 “MapReduce  Input"*Split Fields’“User Defined Java 
Expression” *MapReduce Output24 个 步骤 组 成 。 


+02 Á 编辑 “MapReduce Input” 步 又 ， 如 图 5-16 所 示 。 


MapReduce Input 





Step name |MapReduce Input 





Type Length Precision 
Key field |String v ||o ||2 











Value field | String v D ||2 





e 该 步骤 输出 两 个 字段 ， 名 称 是 固定 的 key 和 value， 也 就 是 Map 阶 


段 输入 的 键 值 对 。 
。 Step name: 定义 步 又 的 名 称 。 
e Key field: Hadoop MapReduce 键 的 数据 类 型 。 
。 Value field: Hadoop MapReduce 值 的 数据 类 型 。 


步骤 034 — 编辑 “Split Fields” 步 又 ， 如 图 5-17 所 示 。 
































LARS Me 
需要 拆 分 的 字段 value v || 
pir 9 
Enclosure e 
字段 
^ # 新 的 字段 ID HRD? 类 型 长 度 精度 Het 分 组 符号 小 数 点 符号 f£ a 
1 client ip | | N String i | | | 
2| full request date | | N String 
3 day : N String 
ai month ! N String 
5: month_num : N String 
6: year d N String 
7i hour iN String 
8 minute | N String 
9| second | N String 
10| timezone i N String 
ui http verb | N Suing 
12 uri i | N String 
13} http status code | | N String 
14) bytes_returned | N String 
15} referrer | N : String 
16i user agent | N String [v] 
" 1- 
© Help | azo || wao | 


图 5-17 Split Fields 步 又 
说 明 : 


。 该 步骤 将 输入 的 value 字 段 拆 分 成 16 个 字段 ， 输 出 17 个 字段 (key 
字段 没 变 ， 在 3.3 节 曾 提 到 文本 文件 每 行 的 key 是 文件 起 始 位 置 到 
BEAT PS nS BE) 。 

。“ 分 阳 符 ”字段 输入 一 个 TAB 符 (图 中 没有 显示 出 来 )。 

© 拆 分 成 的 所 有 16 个 字段 都 是 String 类 型 。 

步骤 044 编辑 “User Defined Java Expression” 步 又 ， 如 图 5-18 所 示 。 





User Defined Java Expression 


步骤 名 称 | 








Fields: 


^ 4 New field Java expression Value type Length | 


1 new_key : client ip --* '+year+' '+ month num | String 
2 new_value | 1 | Integer 

















[© Help | [ wt) || Bum | 








图 5-18 User Defined Java Expression 步 又 
说 明 : 


。 该 步骤 为 数据 流 中 增加 两 个 新 的 字段 ， 名 称 分 别 定 义 为 new_key 
和 mnew_value。 

e new_key 字 段 的 值 定 义 为 client ip + At + year + \t + month num, 
将 IP 地 址 、 年 份 、 月 份 和 字段 间 的 两 个 TAB 符 拼接 成 一 个 字符 
FB 

。 new_value 字 上 段 的 值 为 1， 数 据 类 型 是 整数 。 

。 该 步骤 输出 19 个 字段 。 


步骤 05 Á imt MapReduce Output” 步 又 ， 如 图 5-19 所 示 。 


MapReduce Output 





Step name IM apReduce Output 








Key field |new key 








Value field | new value 








|| Cancel | 





图 5-19 Mapper 转 换 的 MapReduce Output 步 又 


说 明 : ”该 步骤 输出 “new_key” 和 “new_value” 两 个 字段 ， 即 Map 阶 段 
输出 的 键 值 对 。 


步骤 06 Á 将 转换 保存 为 aggregate_mapper.ktr。 
(3) 建立 一 个 用 于 Reducer 的 转换 。 
58014 新 建 一 个 转换 ， 如 图 5-20 所 示 。 





Dn |™ 
oo t 
oy 


» Bz -— fe 




















MapReduce Input Group by MapReduce Output 


[5-20 Reducer 转换 


该 转换 由 “MapReduce Input"*Group by”“MapReduce Output” 三 个 步 
又 组 成 。 


5024 编辑 “MapReduce Input" 步 又 ， 如 图 5-21 所 示 。 


MapReduce Input 








Step name |MapReduce Input | 














Type Length Precision 
Key field | string v ||0 ||2 | 
Value field | Integer v [o |[5 x1 
Help OK Cancel | 











图 5-21 ”Reducer 转换 的 MapReduce Input 步 又 


说 明 : ”该 步骤 输出 两 个 字段 ， 名 称 是 固定 的 key 和 value，key 对 应 
Mapper 转 换 的 new_key 输 出 字段 ，value 对 应 Mapper 转 换 的 new_value 输 
出 字段 。 


步骤 03 4 编辑 “Group by” 步 又， 如 图 5-22 所 示 。 





步骤 名 称 [ m I————— 








包括 所 有 的 行 ? O 
e 
总 返回 一 个 结果 行 O 
构成 分 组 的 字段 : 
^ # 分 组 字段 p ERFA 
1i key [y] 
RA: 
a € 名 称 Subject | 类 型 值 | 获取 查询 字段 
linew value ; value 求 和 i 
[rd > 
@ Help 确定 (D) 取消 (C) 








图 5-22 Group by 步 又 


说 明 : ”该 步骤 按 key 字 有 段 分 组 (key 字段 的 值 就 是 client_ip + W' + 
year + \t + month num) ， 对 每 个 分 组 的 value 求 和 ， 每 组 的 合计 值 定义 
为 一 个 新 的 字段 new_value。 注 意 ， 此 处 的 new_value 和 Mapper 转 换 输 出 


的 new_value 字 段 合 义 是 不 同 的 。Mapper 转 换 输 出 的 new_value 字 段 对 应 
这 里 的 Subject 字 段 值 。 


步骤 044 编辑 "MapReduce Output" 步 又， 如 图 5-23 所 示 。 


MapReduce Dutput 








Step name |MapReduce Output 





Key field — key 








Value field |new value 





Help OK Cancel 





图 5-23 ”Reducer 转 换 的 MapReduce Output 步 又 


说 明 : 输出 Reducer 处 理 后 的 键 值 对 ， 这 就 是 我 们 想 要 的 结果 。 


步骤 05 Á 将 转换 保存 为 aggregate_reducer.ktr。 


(4) 建立 一 个 调用 MapReduce 步 骤 的 作业 ， 使 用 mapper 和 reducer 
转换 。 


步 又 01 新建 一 个 作业 ， 如 图 5-24 所 示 。 
[5 |—8——19) 
START Pentaho MapReduce 
图 5-24 Pentaho MapReduce/f) 





步骤 02 Á 编辑 “Pentaho “MapReduce” 作 业 项 ， 如 图 5-25 一 图 5-28 所 
示 。 





Pentaho MapReduce 


























Name: |Pentaho MapReduce | 
Hadoop Job Name: [aggregate le 
Mapper -. Combiner} Reducer| Job Setup) Cluster) User Defined 
Look in: 
Mapper Transformation: | /home/grid/data-integration/test/aggregate_mapper.ktr le Browse... 
Mapper Input Step Name: [MapReduce Input le 
Mapper Output Step Name: |MapReduce Output le 

Help OK | Cancel 





图 5-25 Pentaho MapReduce 作 业 项 的 Mapper 标 签 





Pentaho MapReduce 


Name: (Pentaho MapReduce | 





Hadoop Job Name: aggregate e 





Mapper | Combiner | Reducer™ Job Setup Cluster) User Defined 














Look in: 

Reducer Transformation: |/home/grid/data-integration/test/aggregate reducer.ktr le Browse... 
Reducer Input Step Name: | MapReduce Input le 

Reducer Output Step Name: |MapReduce Output le 


Reduce single threaded: 


Help OK z Cancel 








图 5-26 Pentaho MapReduce 作 业 项 的 Reducer 标 签 


Pentaho MapReduce 









Name: [Pentaho MapReduce | 








Hadoop Job Name: [aggregate le 








Mapper Combiner | Reducer |Job Setup -.. Cluster| User Defined 






Suppress Output of Map Key: o 












Suppress Output of Map Value: 口 
Suppress Output of Reduce Key: 
Suppress Output of Reduce Value: O 























Input Path: /user/grid/parse le 
Output Path: Juser/grid/aggregate mr le 
Input Format: org.apache. hadoop.mapred. TextinputFormat le 
Output Format: org.apache.hadoop.mapred.TextOutputFormat le 


Clean output path before execution: Ivi 






[ Help " P ok |] Cancel | 





图 5-27 Pentaho MapReduce 作 业 项 的 job Setup 标 签 








Pentaho MapReduce 








Name: |Pentaho MapReduce 








Hadoop Job Name: [aggregate e 








Mapper | Combiner | Reducer |Job Setup Cluster. User Defined 

























Hadoop Cluster: | hadoop local | $ || Edit... || New... 

Number of Mapper Tasks: | 1 e 
Number of Reducer Tasks: — |1 e 
Enable Blocking: g 


Logging Interval: 


5 e 


Cancel 





图 5-28 Pentaho MapReduce 作 业 项 的 Cluster 标 签 


说 明 : 需要 编辑 Mapper、Reducer、job Setup. Cluster 4 个 标签 页 ， 
每 个 标签 页 上 的 选项 及 定义 分 别 如 表 5-4 一 表 5-7 所 示 。 


表 5-4 Mapper 标 签 选 项 


Look in WE Browse 按钮 的 查找 位 置 ， Local 指 本 地 文件 系统 ，Repository by Name 
指 Kettle 的 repository 


Mapper Transformation 作业 中 执行 mapping 功能 的 转换 
Mapper Input Step Name 接收 mapping 数据 的 步骤 名 ， 必 须 是 一 个 MapReduce Input 步骤 的 名 称 
Mapper Output Step Name mapping 输出 步骤 名 ， 必 须 是 一 个 MapReduce Output 步骤 的 名 称 








表 5-5” Reducer 标 签 选项 


Look in 设置 Browse 按钮 的 查找 位 置 ，Local 指 本 地 文件 系统 ，Repository by Name 
指 Kettle 的 repository 


Reducer Transformation 作业 中 执行 reducing 功能 的 转换 


Reducer Input Step Name 接收 reducing 数据 的 步骤 名 ， 必 须 是 一 个 MapReduce Input 步骤 的 名 称 
Reducer Output Step Name reducing 输出 步骤 名 ， 必 须 是 一 个 MapReduce Output 步骤 的 名 称 


Reduce single threaded 是 否 使 用 单线 程 转换 执行 引擎 执行 reducer 转换 。 不 选 时 使 用 正常 的 多 线程 
转换 引擎 。 单 线程 能 够 在 处 理 很 多 小 分 组 输出 时 降低 开销 





表 5-6 job Setup 标 签 选 项 


Suppress Output of | 如 果 选 中 ，Mapper 转换 输出 的 键 将 被 奉 换 为 NullWritable (NullWritable 是 一 个 非常 
Map Key 特殊 的 Writable 类 型 ， 序 列 化 不 包含 任何 字符 ， 仅 仅 相 当 于 个 占 位 符 。 在 使 用 
mapreduce H}, key 或 者 value 在 无 须 使 用 时 ， 可 以 定义 为 NullWritable。) 


Suppress Output of | 如 果 选 中 ，Mapper 转换 输出 的 值 将 被 替换 为 NullWritable 

Map Value 

Suppress Output of | 如 果 选 中 ，Reducer 转换 输出 的 键 将 被 奉 换 为 NullWritable。 要 求 Reducer 转换 不 能 

Reduce Key 是 一 个 “Identity Reducer" (Identity Reducer 对 于 输入 键 值 对 不 进行 任何 处 理 而 直 
接 输出 。) 





Suppress Output of | 如 果 选 中 ，Reducer 转换 输出 的 值 将 被 奉 换 为 NullWritable。 要 求 Reducer 转换 不 能 
Reduce Value 是 一 个 “Identity Reducer” 


一 个 以 逗号 分 隔 的 HDFS 目录 列表 ， 目 录 中 存储 的 是 MapReduce 要 处 理 的 源 数据 文件 
Output Path 存储 MapReduce 作业 输出 数据 的 HDFS 目录 

描述 输入 格式 的 类 名 

描述 输出 格式 的 类 名 

Clean output path | 如 果 选 中 ， 在 MapReduce 作业 被 调度 执行 前 ， 先 删除 输出 目录 


before execution 











表 5-7 Cluster 标签 选项 


选择 、 编 辑 、 新 建 一 个 Hadoop 集群 (定义 Hadoop 集群 参考 52 节 。) 
Number of Mapper | 分 配 的 mapper 任务 数 ， 由 输入 的 数据 量 所 决定 。 典 型 的 值 为 10~100。 非 CPU 密集 
Tasks 型 的 任务 可 以 指定 更 高 的 值 
Number of | 分 配 的 reducer 任务 数 。 一 般 来 说 ， 该 值 设置 得 越 小 ，reduce 操作 启动 得 越 快 ， 设 置 
Reducer Tasks 的 越 大 ，reduce 操作 完成 得 更 快 。 加 大 该 值 会 增加 Hadoop 框架 的 开销 ， 但 能 够 使 负 


载 更 加 均衡 。 如 果 设 置 为 0， 则 不 执行 reduce 操作 ，mapper 的 输出 将 作为 整个 
MapReduce 作业 的 输出 

Enable Blocking 如 果 选 中 ， 作 业 将 等 待 每 一 个 作业 项 完成 后 再 继续 下 一 个 作业 项 ， 这 是 Kettle 感知 
Hadoop 作业 状态 的 唯一 方式 。 如 果 不 选 ，MapReduce 作业 会 自己 执行 ， 而 Kettle 在 
提交 MapReduce 作业 后 立即 会 执行 下 一 个 作业 项 。 除 非 选 中 该 项 ， 否 则 Kettle 的 错 
误 处 理 在 这 里 将 无 法 工作 


Logging Interval 志 消息 间隔 的 秒 数 





步骤 034 将 作业 保存 为 aggregate_mr.kjb。 
(5) 执行 作业 并 验证 输出 。 
步骤 01 Á 执行 下 面 的 命令 启动 Hadoop 的 historyserver。 


$HADOOP HOME/sbin/mr-jobhistory-daemon.sh start historyserver 


步骤 024 执行 aggregate_mr.kjb 作 业 。 
步骤 034 检查 Hadoop 的 输出 文件 ， 结 末 如 下 所 示 。 


[root@cdh1~]#hadoop dfs -cat /user/grid/aggregate mr/part-00000 
DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 


11.308.46.48 2012 06 
13.35.602.684 2012 06 
13.626.41.322 2012 06 
13.640.53.680 2012 06 
14.323.74.653 2012 06 
14.683.628.625 2012 06 
14.688.668.57 2012 06 
155681379 V8 2012 06 
922/798390 12/1 92012 06 
322 E TOLL 9602012 06 
325.83.602.85 2012 06 
Seo O30 2012 06 
361631119301. 22012 06 
3637652119763. 22012 06 
368.10.43.678 2012 06 
43.60.688.623 2012 06 


ran 





O00 0-10t€0-n- P2) Or N | pb PNG P€K) | UNF PF 
[2n 


45.84.87.7 2012 6 1 
57.618.684.654 2012 06 
58.40.07.17 2012 6 7 
612::57:012::653- 2012 06 
654.02.7.70 2012 6 4 
665.81.321.668 2012 06 
682.3.16.08 2012 6 3 


81.306.600.82 2012 06 


HIEUE SJ, /user/grid/aggregate mr H3 FÆ f 44 7jpart-000008 46i 
doctr, SCE LS EAIPAUAE H 4)H PV EK 


5.6 ” Kettle 提交 Spark 作 业 


Kettle 不 但 文 持 MapReduce 作 业 ， 还 可 以 通过 “Spark ^ Submit”* 作 业 
项 ， 向 CDH 5.3 以 上 、HDP 2.3 以 上 、Amazon EMR 3.10 以 上 的 Hadoop 平 
台 提交 Spark 作 业 。 在 本 示例 中 ， 我 们 先 在 Hadoop 集 群 中 安装 Spark， 然 
后 修改 并 执行 Kettle 安 装 包 中 自 带 的 wordcount 作 业 例 子 ， 说 明 如 何在 
Kettle 中 提交 Spark 作 业 。 


5.6.1 ”安装 Spark 

1， 安 朔 前 准备 

(1) 参考 4.2 节 安装 Apache Hadoop 人 集群。 我们 将 在 4.2 节 安装 好 的 
Hadoop 集 群 环境 上 安装 Spark。 


(2) 参考 5.2 节 安装 Hive。 我 们 将 用 SparkSQL 查 询 Hive 表 中 的 数 
据 。 


(3) 从 http:/spark.apache.org/downloads.html 下 载 Spark 安 装 包 。 注 
意 ， 如 果 要 用 SparkSQL 碍 询 Hive 的 数据 ， 一 定 要 注意 Spark 和 Hive 的 版 
本 兼容 性 问题 ， 在 Hive 源 码 包 的 pom.xml 文 件 中 可 以 找到 匹配 的 Spark 版 
AS 


2. 安装 配置 Spark 


# 解压 缩 安装 包 
tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 





# 建立 软 连 接 
ln -s spark-1.6.0-bin-hadoop2.6 spark 


# 配置 环境 变量 

vi /etc/profile.d/spark.sh 

# 增加 如 下 两 行 

export SPARK HOME-/home/grid/spark-1.6.0-bin-hadoop2.6 
export PATH=$PATH: $SPARK_HOME/bin: $SPARK_HOME/sbin 











# 建立 spark-env.sh 

cd /home/grid/spark/conf/ 

cp spark-env.sh.template spark-env.sh 

vi spark-env.sh 

# 增加 如 下 配置 

export JAVA HOME-/home/grid/jdki1.7.0 75 

export HADOOP HOME-/home/grid/hadoop-2.7.2 
export HADOOP CONF DIR-$HADOOP HOME/etc/hadoop 
export SPARK HOME-/home/grid/spark-1.6.0-bin-hadoop2.6 
SPARK MASTER IP-master 

SPARK LOCAL DIRS-/home/grid/spark 





SPARK DRIVER MEMORY-1G 


4 配置 slaves 

cd /home/grid/spark/conf/ 
vi slaves 

# 增加 如 下 两 行 

slave1 

slave2 





# 将 配置 好 的 spark-1.6.0-bin-hadoop2. 6 文件 远程 复制 到 相对 应 的 从 机 中 : 
scp -r spark-1.6.0-bin-hadoop2.6 slave1:/home/grid/ 
scp -r spark-1.6.0-bin-hadoop2.6 slave2:/home/grid/ 


# 配 置 yarn 

vi /home/grid/Hadoop-2.7.2/etc/hadoop/yarn-site.xml 

# 修改 如 下 属性 

<property> 
«name»yarn.nodemanager.resource.memory-mb«/name» 
<value>2048</value> 

</property> 





3. 启动 Spark 


$SPARK HOME/sbin/start-all.sh 





启动 完成 后 查看 spark UI， 如 图 5-29 所 示 。 


Spaik® ıso Spark Master at spark://master:7077 


URL: spark://master: 7077 

REST URL: spark //master 6066 (cluster modo 
Alive Workers: 2 

Cores in use: 2 Total, 0 Used 

Memory in use: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 


Worker Id Address State Cores Memory 
worker-20160321144138-192 168 56102-35086 192 168 56. 102: 35086 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
92 168.56 103-46172 192. 168 56. 103: 46172 ALIVE 1 (0 Used) 1024 0 MB (0.0 B Used) 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time Uset State Duration 


Completed Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 








图 5-29 Spark UI 
4. 测试 Spark 


# 把 一 个 本 地 文本 文件 上 传 到 HDFS， 命 名 为 Input 
hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input 


4 登录 Spark 的 Master 节 点 ， 进 入 spark-shell 

cd $SPARK HOME/bin 

./spark-shell 

& 运行 wordcount 

scala» val file=sc.textFile("hdfs://master :9000/user/grid/input" 


16/03/21 15:07:16 INFO storage.MemoryStore: Block broadcast 3 st 
(estimated size 323.2 KB, free 349.6 KB) 

16/03/21 15:07:16 INFO storage.MemoryStore: Block broadcast 3 pi 
memory (estimated size 19.7 KB, free 369.3 KB) 

16/03/21 15:07:16 INFO storage.BlockManagerInfo: Added broadcast 
localhost:54879 (size: 19.7 KB, free: 517.4 MB) 

16/03/21 15:07:16 INFO spark.SparkContext: Created broadcast 3 f 
file: org.apache.spacr.rdd.RDD[String] - MapPartitionsRDD[6] at 


scala» val count-file.flatMap(line => line.split(" ")).map(word 


16/03/21 15:09:38 INFO mapred.FileInputFormat: Total input paths 
count: org.apache.spark.rdd.RDD[(String, Int)] - ShuffledRDD[9] 
<console>: 29 


scala> count.collect() 


resi: Array[(String, Int)] = Array((Hadoop,1), (Commodity,1), (F 
(under,1), (it,1), (The,4), (Jetty,1), (Software,2), (Technology 
(<http://www.wassenaar.org/>,1), (have,1), (http://wiki.apache.o 
(classified,1), (This,1), (following,1), (which,2), (security,1) 
(Number,1), (export,1), (reside,1), (for,3), ((BIS),,1), (any,1) 
(makes,1), (algorithms.,1), (re-export,2), (latest,1), (your,1), 
(Administration,1), (includes,2), (import,,2), (provides,1), (Un 


(if,1), (740,13),1), (Commerce,,1), (country,,1), (software.,2), 
(source, 1), (possession,,2), (Apache,1), (our,2), (written,1), ( 
(regulations,... 


5. 测试 SparkSQL 


在 $SPARK_HOME/conf 目 录 下 创建 hive-site.xml 文 件 ， 然 后 在 该 配 
置 文件 中 添加 hive.metastore.uris 属 性 : 


<configuration> 
<property> 
<name>hive.metastore.uris</name> 
<value>thrift://master :9083</value> 
</property> 
</configuration> 


启动 hive metastore 服 务 : 


hive --service metastore > /tmp/grid/hive metastore.log 2>&1 & 


启动 SparkSQL CLI: 


spark-sql --master spark://master:7077 --executor-memory 1g 


使 用 HQL 语 句 对 Hive 数 据 进 行 查询 : 


spark-sql» create database test; 

16/03/22 16:53:33 WARN ObjectStore: Failed to get database test, 
NoSuchObjectException 

OK 

spark-sql» use test; 

OK 

spark-sql» create table t1 (name string); 

OK 

load data local inpath '/home/grid/a.txt' into table t1; 
Loading data to table test.t1 

Table test.t1 status: [numFiles=1, totalSize-4] 

OK 

spark-sql» select * from t1; 

aaa 

spark-sql» select count(*) from t1; 

1 


spark-sql> drop table t1; 
OK 


5.6.2 Me A Kettle] Spark k FF pe ZEN 
1. 环境 


4& CentOS release 6.4 虚 拟 机 ， 了 P 地 址 为 : 192.168.56.101. 
192.168.56.102、192.168.56.103、192.168.56.104。 


。 192.168.56.101 是 Spark 集 群 的 主机 ， 运 行 Master 进 程 。 

e 192.168.56.102、192.168.56.103 是 Spark 的 从 机 ， 运 行 Worker 进 
程 : 

e 192.168.56.104 安 装 Kettle， 安 装 目 录 为 /home/grid/data- 


integration. 
Hadoop 版 本 : 2.7.2. 
Spark] AS: 1.5.0. 
Kettle 版 本 : 6.0. 


2. 配置 
(1) 在 PDI 主 机 上 安装 Spark 客 户 端 


将 Spark 的 安装 目录 和 相关 系统 环境 设置 文件 复制 到 PDI 所 在 主机 。 
在 192.168.56.101 上 执行 以 下 命令 : 





scp -r /home/grid/spark 192.168.56.104:/home/grid/ 
scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 


下 面 的 配置 均 在 192.168.56.104 上 执行 


(2) 编辑 相关 配置 文件 
在 /etc/hosts 文 件 中 加 如 下 两 行 用 于 域名 解析 ，master 和 kettle 为 各 上 自 
主机 的 hostname: 


192.168.56.101 master 
192.168.56.104 kettle 








编辑 spark-env.sh 文 件 ， 设 置 环境 变量 ， 写 如 下 两 行 : 


export HADOOP CONF DIR-/home/grid/data-integration/plugins/penta 
configurations/cdh54 
export SPARK HOME-/home/grid/spark 








编辑 Spark.sh， 设 置 环 境 变 量 ， 写 如 下 三 行 : 


export SPARK HOME-/home/grid/spark 

export PATH-$PATH:$SPARK HOME/bin:$SPARK HOME/sbin 

export HADOOP CONF DIR-/home/grid/data-integration/plugins/penta 
configurations/cdh54 


3. 测试 


(1) 修改 Kettle 目 带 的 wordcount 作 业 例 子 。 


cp /home/grid/data-integration/samples/jobs/Spark\ Submit/SparkN 
integration/test/Spark\ Submit\ Sample.kjb 


Kettle F fT Jt /home/grid/data-integration/test/Spark\ Submit\ 
Sample.kjb 文 件 ， 如 图 5-30 所 示 。 


Qux — (Z3 Spark Submit Sample X 
> |pBIBgIE& 100% | v | 


SETUP INSTRUCTIONS: 

1. Download and unpack spark binary distribution 
2. Copy your CDH cluster configuration files (core-site.xml, hdfs-site.xml and yarn-s! 
3. Make sure HADOOP_CONF_DIR/YARN_CONF_DIR environment variable is available 
4. Make sure spark's spark.yarn.jar configuration parameter is pointing to cloudera' 
5. Edit Spark PI job entry's paths to spark-submit utility and application jar to matct 








* NOTE: By default cloudera manager puts spark-assembly.jar to hdfs://<hdfs file sy 


[2s o> | 


START Spark Submit Sample Success 














图 5-30 ”Kettle 自 带 的 Spark 例 子 
(2) 编辑 Spark Submit Sample 作 业 项 ， 填 写 如 图 5-31 所 示 的 信息 。 


Entry Name: 


spark Submit samplel | 





(Job Setup" . Parameters) 


Spark Submit Utility: 


/home/grid/spark/bin/spark-submit 会 | 浏览 (B) | 


Master URL: 


rmn] E 


Application Jar: 














[/hometgrid/spark/lib/spark-examples-1.5.0-hadoop2.6 Ojar o | jute (B)... | 


Class Name: 


org.apache.spark.examples.JavaWwordCount le 


Arguments: 
input je 


Memory Allocation 








Executor: 


e 


O Enable Blocking 








| Helo | amar (Oy || asec) 


图 5-31 Spark Submit 作 业 项 


Job Setup 标 签 页 的 配置 选项 及 定义 如 表 5-8 所 示 。 


表 5-8 Spark Submit 作 业 项 选项 


Entry Name 定义 作业 项 的 名 称 ， 保 持 默 认 
Spark-Submit Utility 提交 Spark 作业 的 脚本 ， 使 用 spark-submit 


Master URL Spark 集群 的 URL， 如 果 Spark 部 署 在 YARN 上 ， 支 持 两 个 选项 : 
(1) Yarn-Cluster, Spark 驱动 程序 作为 一 个 YARN Application Master 的 线程 运 
行 ， 类 似 于 MapReduce 的 工作 方式 。 
(2) Yarn-Client, Spark 驱动 程序 作为 一 个 YARN 客户 端 运行 。 
我 们 使 用 的 Spark 自 带 的 standalone 部 署 方 式 ， 所 以 这 里 填写 
spark://master:7077 





应 用 相关 的 类 名 

传 给 main 方法 的 参数 ， 这 里 就 是 需要 统计 词 频 的 文件 名 

分 配给 每 个 执行 器 进程 的 内 存 大 小 ， 使 用 JVM 格式 ， 如 512m、2g 等 
每 个 Spark 驱动 程序 使 用 的 内 存 大 小 ， 使 用 JVM 格式 ， 如 512m, 2g 


Enable Blocking 如 果 选 中 ， 后 续 作 业 项 将 等 待 ， 直 到 Spark 作业 运行 完 。 如 果 不 选 ，Spark 作 
业 一 旦 提交 ，Kettle 作业 就 会 继续 执行 下 面 的 作业 项 
(3) 执行 例子 。 


在 HDFS 上 准备 测试 文件 /usevgrid/input， 执 行 Spark Submit Sample 
作业 。Spark UI 控制 台 如 图 5-32 所 示 。 


hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input 








Spak isp Spark Master at spark://master:7077 


URL: spark //manger 7077 
REST URL: spa mester 6066 
Aliva Workem: > 

we 


Worker Id Address ` Memory 
shae-20 1604000965 1-192 168 56 $2 192 158.56 102 26211 A 1024 0 MD (0 0 B Lined) 
192 168 56 103.3811 ALIN 1024 0 MB (0.0 B Lead 


Running Applications 
Application ID Submitted Time Duration 


Completed Applications 


Application ID Submitted Time 
app |G0-406 155857-0007 Javaid out 2 2 2092/04/08 1556 57 


200408 1527 41 


20904/8 14 30 10 
10240 MB 2015/04/08 1427 1€ 
10040 MB 2015/04/08 14 19 05 


10240 wt 30 Vy04/08 14.02 44 





图 5-32 Spark UI 看 到 提交 的 Spark 作 业 


5.7 J£ 


(1) 通过 提交 适当 的 参数 ，Kettle 可 以 连接 Hadoop 的 HDFS、 
MapReduce、Zookeeper、Oozie 和 Spark 服 务 。 


(2) Kettle 的 数据 库 连 接 类 型 中 文 持 Hive、Hive2 和 Impala。 


(3) 可 以 使 用 Kettle 导 出 导入 Hadoop 集 群 中 CHDFS. Hive^s) 的 
数据 。 


(4) Kettle 支 持 执行 Hive 的 HiveQL 语 句 。 


(5) 可 以 使 用 “Pentaho MapReduce” AWE Hadoop Hír F 
MapReduce 的 Kettle 转 换 。 


(6) Kettle 文 持 癌 Spark 集 群 提 交 作 业 。 


第 6 章 
如 建立 数据 仓库 示例 模型 > 


上 一 章 开 头 提 到 ETL 开 发 的 三 种 方式 : 使 用 工具 、 使 用 SQL、 使 用 
程序 语言 。 从 本 章 开 始 ， 介 绍 在 Hadoop 上 使 用 SQL 实现 数据 仓库 的 ETL 
过 程 。 我 们 会 引入 一 个 典型 的 订单 业务 场景 作为 示例 ， 说 明 多 维 模型 及 
其 相关 ETL 技 术 在 Hadoop 上 的 具体 实现 。 示 例 的 Hadoop 环 境 使 用 4.4 市 
安装 的 CDH 5.7.0 4 节点 集群 。 


本 章 首 先 介 绍 一 个 小 而 典型 的 销售 订单 示例 ， 描 述 业 务 场景 ， 说 明 
示例 中 包含 的 实体 和 关系 ， 并 在 MySQL 数 据 库 上 建立 源 数据 库 表 并 生 
成 初始 的 数据 。 我 们 要 在 Hive 中 创建 源 数据 过 渡 区 和 数据 仓库 的 表 ， 因 
此 需要 了 解 与 Hive 创 建 表 相 关 的 技术 问题 ， 包 括 使 用 Hive 建 立 传统 多 维 
数据 仓库 时 ， 如 何 选择 适当 的 文件 格式 ，Hive 文 持 哪些 表 类 型 ， 回 不 同 
类 型 的 表 中 装载 数据 时 具有 哪些 不 同 特性 。 我 们 将 以 实验 的 方式 对 这 些 
问题 加 以 说 明 。 在 此 基础 上 ， 我 们 就 可 以 编写 Hive 的 HiveQL 脚 本 ， 建 
并 过渡 区 和 数据 仓库 中 的 表 。 本 章 最 后 会 说 明日 期 维度 的 数据 装载 方式 
及 其 实现 脚本 。 








6.1 业务 场景 


1. 操作 型 数据 源 


示例 的 操作 型 系统 是 一 个 销售 订单 系统 ， 初 始 时 只 有 产品 、 客 户 、 
销售 订单 三 个 表 ， 实 体 关 系 图 如 图 6-1 所 示 。 





sales order | 


order number ipi» <M 

customer numbercfi2» 

product code «fil? 

order date = 


















































entry_date 
order_amount 
product | customer 
product code «pi» «M» 3 customer number <pi> «M» 
product name customer name 
product catezory customer street address 
customer zip code 
customer city 
customer state 
图 6-1 销售 订单 源 系 统 











这 个 场景 中 的 表 及 其 属性 都 很 简单 。 产 品 表 和 客户 表 属 于 基本 信息 
表 ， 分 别 存储 产品 和 客户 的 信息 。 产 品 只 有 产品 编号 、 产 品名 称 、 产 品 
分 类 3 个 属性 ， 产 品 编号 是 主键 ， 唯 一 标识 一 个 产品 。 客 户 有 6 个 属性 
除 客户 编号 和 客户 名 称 外 ， 还 包含 省 、 市 、 街 道 、 邮 编 4 个 客户 所 在 地 
区 属性 。 客 户 编号 是 主键 ， 唯 一 标识 一 个 客户 。 在 实际 应 用 中 ， 基 本 信 
息 表 通 常 由 其 他 后 台 系 统 维护 。 销 售 订单 表 有 6 个 属性 ， 订 单 号 是 主 
键 ， 唯 一 标识 一 条 销售 订单 记录 。 产 品 编号 和 客户 编号 是 两 个 外 键 ， 分 
别 引用 产品 表 和 客户 表 的 主键 。 另 外 三 个 属性 是 订单 时 间 、 登 记 时 间 和 
订单 金额 。 订 单 时间 指 的 是 客户 下 订单 的 时 间 ， 订 单 金 额 属性 指 的 是 该 
笔 订单 需要 花费 的 金额 ， 这 些 属性 的 含义 很 清楚 。 订 单 登记 时 间 表 示 订 
单 录入 的 时 间 ， 大 多 数 情况 下 它 应 该 等 同 于 订单 时 间 。 如 果 由 于 某 种 情 
况 需要 重新 录入 订单 ， 还 要 同时 记录 原始 订单 的 时 间 和 重新 录入 的 时 
间 ， 或 者 出 现 某 种 问题 ， 订 单 登记 时 间 滞 后 于 下 订单 的 时 间 (LSSR 
到 的 事实 "会 讨论 这 种 情况 ) ， 这 两 个 属性 值 就 会 不 同 。 

源 系 统 采 用 关系 模型 设计 ， 为 了 减少 表 的 数量 ， 这 个 系统 只 做 到 了 
2NF。 地 区 信息 依赖 于 邮编 ， 所 以 这 个 模型 中 存在 传递 依赖 。 


2. 销售 订单 数据 仓库 模型 设计 
































我 们 使 用 2.2 市 介绍 的 4 步 建 模 法 设计 星 型 数据 仓库 模型 。 


D 选择 业务 流程 。 在 本 示例 中 只 涉及 一 个 销售 订单 的 业务 流 











(2) 声明 粒度 。ETL 处 理 时 间 周 期 为 每 天 一 次 ， 事 实 表 中 存储 最 
细 粒 度 的 订单 事务 记录 。 

(3) 确认 维度 。 显 然 产 品 和 客户 是 销售 订单 的 维度 。 日 期 维度 用 
于 业务 集成 ， 并 为 数据 仓库 提供 重要 的 历史 视角 ， 每 个 数据 仓库 中 都 应 
该 有 一 个 日 期 维度 。 订 单 维度 是 特意 设计 的 ， 用 于 后 面 说 明 退 化 维度 技 
术 。 我 们 将 在 10.5 市 详细 介绍 退化 维度 。 

(4) 确认 事实 。 销 售 订单 是 当前 场景 中 唯一 的 事实 。 

示例 数据 仓库 的 实体 关系 图 如 图 6-2 所 示 。 









































product_dim customer_dim 

product ak <pi> «M» customer sk £pi» <i> 
product code customer number 
product name c customer name 
product category "||eustomer street address 
version customer zip code 
effective date customer city 
expiry date customer state 

version 

effective date 

m i 
sales order fact [0 expiry date 




















order sk «fi3» 
cu: «fi 


product sk <i 
order_date_sk<fi4> 


A 











1 C 
order dim date dim 





























order sk ipi» <i> date sk £pi» «XN» 
order number date 
version nonth 
effective date nonth name 
expiry date quarter 
year 


























图 6-2 ”销售 订单 数据 仓库 














作为 演示 示例 ， 上 面 实体 关系 图 中 的 实体 属性 都 很 简单 ， 看 属性 名 
字 便 知 其 含义 。 除 了 日 期 维度 外 ， 其 他 三 个 维度 都 在 源 数据 的 基础 上 增 
加 了 代理 键 、 版 本 号 、 生 效 日 期 、 过 期 日 期 四 个 属性 ， 用 来 描述 维度 变 
化 的 历史 。 妆 维度 属性 及 生变 化 时 ， 依 据 不 同 的 琐 略 ， 或 生成 一 条 新 的 
维度 记录 ， 或 直接 修改 原 记 录 。 日 期 维度 有 其 特殊 性 ， 该 维度 数据 一 旦 





生成 就 不 会 改变 ， 所 以 不 需要 版 本 号 、 生 效 日 期 和 过 期 日 期 。 代 理 键 是 
维度 表 的 主键 。 事 实 表 引用 维度 表 的 代理 键 作 为 目 己 的 外 键 ，4 个 外 键 
构成 了 事实 表 的 联合 主键 。 订 单 金额 是 当前 事实 表 中 的 唯一 度量 。 








6.2 Hive ži A 


在 3.5 节 曾经 提 到 Hive 可 以 用 于 原始 数据 和 转换 后 的 数据 仓库 数据 存 
储 。 使 用 Hive 作 为 多 维 数 据 仓库 的 主要 挑战 是 处 理 渐变 维 SCD) ME 
成 代理 键 。 处 理 渐 变 维 需 要 配置 Hive 文 持 行 级 更 新 ， 并 在 建 表 时 选择 适 
当 的 文件 格式 。 生 成 代理 键 在 关系 数据 库 中 一 般 都 是 用 目 增 列 《 如 
MySQL) 或 序列 对 象 〈 如 Oracle) ， 但 Hive 中 没有 这 样 的 机 制 ， 必 须 用 
其 他 方法 实现 。 在 第 8 章 “ 数 据 转 换 与 装载 ?中 将 说 明 渐变 维 的 概念 和 
Hive 中 生成 代理 键 的 方法 。 


6.2.1 选择 文件 格式 


Hive 是 Hadoop 上 的 数据 仓库 组 件 ， 便 于 查询 和 管理 分 布 式 存储 上 的 
大 数据 集 。Hive 提 供 了 一 种 称 为 HiveQL 的 语言 ， 人 允许 用 户 进 行 类 似 于 
SQL 的 查询 。 和 普遍 使 用 的 所 有 SQL 方 言 一 样 ， 它 不 完全 遵守 任何 一 种 
ANSI SQL 标准 ， 并 对 标准 SQL 进行 了 扩展 。HiveQL 和 MySQL 的 方言 最 
为 接近 ， 但 是 两 者 还 是 存在 显著 差异 。HiveQL 只 处 理 结构 化 数据 ， 并 
且 不 区 分 大 小 写 。 默 认 时 Hive 使 用 内 建 的 derby 数 据 库存 储 元 数据 ， 也 
可 以 配置 Hive 使 用 MySQL、Oracle 等 关系 数据 库存 储 元 数据 ， 生 产 环 境 
建议 使 用 外 部 数据 库存 储 Hive 元 数据 。Hive 里 的 数据 最 终 存 储 在 HDFS 
的 文件 中 ， 第 用 的 数据 文件 格式 有 以 下 4 种 : 




















e TEXTFILE 
e SEQUENCEFILE 
e RCFILE 


e ORCFILE 


在 深入 讨论 各 种 类 型 的 文件 格式 前 ， 先 看 一 下 什么 是 文件 格式 。 所 
谓 文件 格式 是 一 种 信息 被 存储 或 编码 成 计算 机 文件 的 方式 。 在 Hive 中 文 
件 格式 指 的 是 记录 以 怎样 的 编码 格式 被 存储 到 文件 中 。 当 我 们 处 理 结构 
化 数据 时 ， 每 条 记录 都 有 自己 的 结构 。 记 录 在 文件 中 是 如 何 编码 的 就 定 
义 了 文件 格式 。 不 同文 件 格式 的 主要 区 别 在 于 它们 的 数据 编码 、 压 缩 
率 、 使 用 的 空间 和 磁盘 IO。 


当 用 户 同 传统 数据 库 中 增加 数据 的 时 候 ， 系 统 会 检查 写 入 的 数据 与 
表 结 构 是 售 匹 配 ， 如 果 不 匹 配 则 拒绝 插入 数据 ， 这 就 是 所 谓 的 写 时 模 
式 。Hive 与 此 不 同 ， 它 使 用 的 是 读 时 模式 ， 就 是 直到 读 取 时 再 进行 数据 
校 验 。 在 向 Hive 沪 载 数据 时 ， 它 并 不 验证 数据 与 表 结构 是 否 匹 配 ， 但 这 
时 它 会 检查 文件 格式 是 否 和 表 定 义 相 匹 配 。 








1. TEXTFILE 


TEXTFILE 就 是 普通 的 文本 型 文件 ， 是 Hadoop 里 最 常用 的 输入 输出 
格式 ， 也 是 Hive 的 默认 文件 格式 。 如 果 表 定义 为 TEXTFILE， 则 可 以 向 
该 表 中 装载 以 逗号 、TAB 或 空格 作为 分 隔 符 的 数据 ， 也 可 以 导入 JSON 
格式 的 数据 。 

文本 文件 中 除了 可 以 包含 普通 的 字符 串 、 数 字 、 日 期 等 简单 数据 类 
型 外 ， 还 可 以 包含 复杂 的 集合 数据 类 型 。 如 表 6-1 所 示 是 Hive 文 持 
STRUCT、MAP 和 ARRAY 三 种 集合 数据 类 型 。 





数据 类 型 
STRUCT 结构 类 型 可 以 通过 “点 ”符号 访问 元 素 内 容 。 例 | columnname struct(first string, last 
如 ， 某 个 列 的 数据 类 型 是 STRUCT {first | string) 
STRING, last STRING}， 那 么 第 一 个 元 素 可 以 通 
过 移 帮 名 .first 来 引用 


MAP MAP 是 一 组 键 / 值 对 元 组 集合 ， 使 用 数组 表示 法 | columnname map(string, string) 
可 以 访问 元 素 。 例 如 ， 如 果菜 个 列 的 数据 类 型 是 


MAP， 其 中 键 / 值 对 是 first'/Johm*? 和 last*/Doe", 

ABA HY DA et HAC last’ FRA eR RV 

值 

ARRAY 数组 是 一 组 具有 相同 类 型 和 名 称 的 变量 集合 。 这 | columnname array(string) 

些 变量 被 称 为 数组 的 元 素 ， 每 个 数组 元 素 都 有 一 

个 编号 ， 编 号 从 0 开始 。 例 如 ， 数 组 值 为 

[‘John’,‘Doe’], MAH 2 个 元 素 可 以 通过 字段 名 

[1] 进 行 引用 








Hive 中 默认 的 记录 和 字段 分 隔 符 如 表 6-2 所 示 。TEXTFILE 格 式 每 一 
行 被 默认 为 一 条 记录 。 


表 6-2 Hive 中 默认 的 记录 和 字段 分 隔 


对 文本 文件 来 说 ， 每 行 都 是 一 条 记录 ， 因 此 换行 符 可 以 分 隔 记录 
^A (Ctrl+A) 用 于 分 隔 字段 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 \001 表示 


^B (Ctrl+B) 用 于 分 隅 ARRARY 或 STRUCT 中 的 元 素 ， 或 用 于 MAP 中 键 / 值 对 之 间 的 分 隔 。 在 
CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 \002 表示 

^C (Ctrl+C) 用 于 MAP 中 键 和 值 之 间 的 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 
\003 表示 








TEXTFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.mapred.TextInputFormat 
org.apache.hadoop.mapred.TextOutputFormat 


示例 1: 以 TAB 为 列 间 分 陋 符 的 文本 文件 


创建 一 个 文本 文件 /root/data.csv， 录 入 四 列 两 行 数据 ， 列 之 间 用 
TAB 符号 作为 分 隔 符 ， 文 件 内 容 如 下 : 


al 1 b1 c1 
a2 2 b2 c2 


执行 下 面 的 语句 创建 表 、 装 载 数据 、 碍 询 表 。 


-- 建立 TEXTFILE 格 式 的 表 : 
USe 





test; 
create table 


t textfile(c1 string, c2 int 


, C3 string, c4 


string) 
row format 


delimited fields terminated by 


'Nt' stored as 


textfile; 
-- 问 表 中 导入 数据 : 
load data local 


inpath '/root/data.csv' into table 


t textfile; 


-- 查询 表 : 


select 


* from 


t textfile; 


查询 结 有 末 如 下 所 示 ; 
live» select! * from t textfile; 
OK 
al 1 bl cal 
a2 2 b2 c2 


Time taken: 0.493 seconds, Fetched: 2 row(s) 


示例 2: JSON 格 式 的 数据 文件 


建立 一 个 json 文 件 /root/simple.json， 内 容 如 下 : 


{"foo": "abc", "bar":"20090101100000", "quux": {"quuxid":1234, "quuxn 


执行 下 面 的 语句 创建 表 、 装 载 数据 、 碍 询 表 。 


-- 根据 实际 目录 添加 hive-hcatalog-core.jar 包 : 
add 


jar /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/1ib/oozie/ 
core.jar; 

-- 建立 测试 表 : 

use 





test; 
create table 


my table( 


foo string, 
bar string, 
quux struct« 


quuxid:int 


, quuxname:string>) 
row format 


serde 'org.apache.hive.hcatalog.data.JsonSerDe' 
stored as 


textfile; 
-- 装载 数据 : 
load data local 


inpath '/root/simple.json' into table 


my table; 
-- f. 


select 


foo, bar, quux.quuxid, quux.quuxname from 


my table; 


查询 结果 如 下 所 示 : 


OK 
abc 20090101100000 1234 sam 


Time taken: 22.051 seconds, Fetched: 1 row(s) 


再 看 一 个 复杂 些 的 例子 ，complex_json 表 中 含有 结构 类 型 嵌 套 和 结 
构 、 数 组 、 结 构 三 层 众 套 。 建 立 一 个 json 文 件 fooVycomplex.json， 内 容 如 
下 : 
{"docid": "abc", "user":{"id":1234, "username":"sam1234", "name":"sa 
s1":"123 main 


st.","address2":"", "city":"durham", "state":"nc"*, "orders":[("ite 
2012"}, {"itemid": 4352, "orderdate":"12/12/2012"}]}} 


执行 下 面 的 语句 创建 表 、 装 载 数据 、 碍 询 表 。 


-- 建立 测试 表 : 
use test; 
create table complex json ( 
docid string, 
user struct<id: int, 
username: string, 
name: string, 


shippingaddress:struct<addressl:string, 
address2:string, 
city: string, 
state: string», 
orders:array<struct<itemid:int, 


orderdate:string>>> 

) 

row format serde 'org.apache.hive.hcatalog.data.JsonSerDe' 

stored as textfile; 

-- 装载 数据 : 

load data local inpath '/root/complex.json' overwrite into table complex json; 

-- 查询 : 

select docid, user.id, user.shippingaddress.city as city, 
user.orders[0].itemid as order0id, 
user.orders[1].itemid as orderlid 

from complex json; 


查询 结果 如 下 所 示 : 


OK 
abc 1234 durham 6789 4352 
Time taken: 18.744 seconds, Fetched: 1 row(s) 


查询 : 


select docid, user.id, user.orders.itemid from complex json; 


查询 结果 如 下 所 示 : 


OK 


abc 1234 [6789,4352] 
Time taken: 17.755 seconds, Fetched: 1 row(s) 


以 上 例子 中 ，json 串 的 结构 是 固定 的 ， 然 而 实际 应 用 中 结构 可 能 是 
动态 变化 的 ， 我 们 再 看 一 个 用 MAP 类 型 存储 动态 键 / 值 对 的 例子 。 创 建 
文件 /root/a.json 文 件 ， 内 容 如 下 : 


{"conflict" 
{"conflict" 
{"conflict" 
{"conflict" 
{"conflict" 


: (" liveid" 
: (" liveid" 
: (" liveid" 
: (" liveid" 
: (" liveid" 


:123, "zhuboid":456, "media" :789, "proxy" :"abc 
:123, "zhuboid":456, "media" :789, "proxy" :"abc 
:123, "zhuboid":456, "media": 789}} 

:123, "zhuboid":456}} 

:123}} 


执行 下 面 的 语句 创建 表 、 装 载 数据 、 碍 询 表 。 


-- 动态 map 
use 


test; 
drop table 


json tab; 


add jar /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/1ib/ooz 


core.jar; 


create table 


json tab ( 


conflict map< 


string, st 


) 


row format 


ring» 


serde 'org.apache.hive.hcatalog.data.JsonSerDe' 


stored as 


textfile; 
-- 装载 数据 


load data local 


inpath '/root/a.json' overwrite into table 


json tab; 
-- 查询 


select * from 


"456", "media" :"789", "proxy" :"abc", "res 
"456 "media" a "789", "proxy" o "abc" 
:"456", "media" :"789" 

:"456"} 


json_tab; 
查询 结 果 如 下 所 示 : 

hive> select * from json tab; 
OK 
{"liveid":"123","zhuboid": 
{"liveid":"123","zhuboid": 
("liveid":"123","zhuboid" 
("liveid":"123","zhuboid" 
{"liveid":"123"} 
{"liveid":"123"} 


Time taken: 0.134 seconds, Fetched: 6 row(s) 
查询 : 


select 


conflict["media"] from 


json tab; 


查询 结果 如 下 上 所 示 : 


OK 

789 

789 

789 

NULL 

NULL 

NULL 

Time taken: 19.629 seconds, Fetched: 6 row(s) 


2. SEQUENCEFILE 


我 们 知道 Hadoop 处 理 少量 大 文件 比 大量 小 文件 的 性 能 要 好 。 如 果 文 
件 小 于 Hadoop 定 义 的 块 尺 寸 (Hadoop 2.x 默 认 是 128MB) ， 可 以 认为 是 
小 文件 。 元 数据 的 增长 将 转化 为 NameNode 的 开销 。 如 果 有 大 量 小 文 
件 ，NameNode 会 成 为 性 能 瓶 贷 。 为 了 解决 这 个 问题 ，Hadoop 引 入 了 
Sequence 文件 ， 将 sequence 作 为 存储 小 文件 的 容器 。 


Sequence 文 件 是 由 二 进 制 键 值 对 组 成 的 平面 文件 。Hive 将 查询 转换 
成 MapReduce 作 业 时 ， 决 定 一 个 给 定 记 录 的 哪些 键 / 值 对 被 使 用 。 
Sequence 文 件 是 可 分 割 的 二 进 制 格式 ， 主 要 的 用 途 是 联合 多 个 小 文件 。 


SEQUENCEEFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.mapred.SequenceFileInputFormat 
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 


示例 : 





-- 建立 SEQUENCEFILE 格 式 的 表 
USe 


test; 
create table 


t sequencefile(c1 string, c2 int 


, c3 string, c4 


string) 
row format 


delimited fields terminated by 


'Nt' stored as 


sequencefile; 
-- 向 表 中 导入 数据 
-- 与 TEXTFILE 有 些 不 同 ， 因 为 SEQUENCEFILE 是 二 进 制 格式 ， 所 以 需要 从 其 他 表 向 S 


insert 








overwrite table 


t sequencefile select * from 


t textfile; 
查询 


select 


* from 


t sequencefile; 
3. RCFILE 


RCFILE 指 的 是 Record Columnar File， 是 一 种 高 压缩 率 的 二 进 制 文 
件 格式 ， 被 用 于 在 一 个 时 间 点 操作 多 行 的 场景 。RCEFILEs 是 由 二 进 制 键 
/ 值 对 组 成 的 平面 文件 ， 这 点 与 SEQUENCEFILE 非 常 相似 。RCEFILE 以 
记录 的 形式 存储 表 中 的 列 ， 即 列 存储 方式 。 它 先 分 割 行 做 水 平分 区 ， 然 
后 分 割 列 做 垂直 分 区 。RCEFILE 把 一 行 的 元 数据 作为 键 ， 把 行 数 据 作 为 
值 。 这 种 面向 列 的 存储 在 执行 数据 分 析 时 更 高 效 。 
RCFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.hive.ql.io.RCFileInputFormat 
org.apache.hadoop.hive.ql.io.RCFileOutputFormat 


示例 : 





- 建立 RCFILE 格 式 的 表 
USe 


test; 
create table 


t rcfile(c1 string, c2 int 


, C3 string, c4 


string) 
row format 


delimited fields terminated by 


'Nt' stored as 








rcfile; 

-- 问 表 中 导入 数据 

-- 不 能 直接 辐 RCFILE 表 中 导入 数据 ， 需 要 从 其 他 表 癌 RCFILE 表 操 
Insert 


overwrite table 


t rcfile select * from 


t textfile; 
-- 查询 表 


select 


* from 


RAB o 


t rcfile; 
4. ORCFILE 


ORC 指 的 是 Optimized Record Columnar， 就 是 说 相对 于 其 他 文件 格 
式 ， 它 以 更 优化 的 方式 存储 数据 。ORC 能 将 原始 数据 的 大 小 缩减 75%， 
从 而 提升 了 数据 处 理 的 速度 。ORC 比 Text、Sequence 和 RC 文件 格式 有 更 
好 的 性 能 ， 而 且 ORC 是 目前 Hive 中 唯一 支持 事务 的 文件 格式 。 


ORCFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.hive.ql.io.orc 


示例 : 





- 建立 ORCFILE 格 式 的 表 
USe 


test; 
create table 


t orcfile(ci string, c2 int 


, C3 string, c4 


string) 
row format 


delimited fields terminated by 


'Nt' stored as 








orcfile; 

-- 问 表 中 导入 数据 

- - 不 能 直接 向 ORCFILE 表 中 导入 数据 ， 需 要 从 其 他 表 问 ORCFILE 表 插入 数据 。 
insert 


overwrite table 
t orcfile select * from 


t textfile; 
询 表 


select 
* from 


t_orcfile; 


应 该 依据 数据 需求 选择 适当 的 文件 格式 ， 例 如 : 


如 果 数 据 有 参数 化 的 分 隔 符 ， 那 么 可 以 选择 TEXTFILE 格 式 。 
如 果 数 据 所 在 文件 比 块 尺寸 小 ， 可 以 选择 SEQUENCEFILE 格 
Th 

如 果 想 执行 数据 分 析 ， 并 高 效 地 存储 数据 ， 可 以 选择 RCFILE 格 
Tye 

如 果 和 希望 减 小 数据 所 需 的 存储 空间 并 提升 性 能 ， 可 以 选 额 
ORCFILE 格 式 。 


多 维 数据 仓库 需要 处 理 渐 变 维 (SCD) ， 必 然 要 用 到 行 级 更 新 ， 而 
当前 的 Hive 只 有 ORCEFILE 文 件 格 式 可 以 文 持 此 功能 。 因 此 在 我 们 的 销售 
订单 示例 中 ， 所 有 数据 仓库 里 的 表 ， 除 日 期 维度 表 外 ， 其 他 表 都 使 用 
ORCFILE 格 式 。 日 期 维度 表 数 据 一 旦 生成 就 不 会 修改 ， 所 以 使 用 
TEXTFILE 格 式 。 原 始 数据 存储 里 的 表 数 据 是 从 源 数据 库 直 接 导 入 的 ， 
只 有 追加 和 履 盖 两 种 导入 方式 ， 不 存在 数据 更 新 的 问题 ， 因 此 使 用 默认 
的 TEXTFILE 格 式 。 


6.2[2 SCT RE 


前 面 多 次 提 到 ，HDFS 是 一 个 不 可 更 新 的 文件 系统 ， 其 中 只 能 创 
建 、 删 除 文 件 或 目录 ， 文 件 一 旦 创建 ， 只 能 从 它 的 末尾 追加 数据 ， 已 存 
在 数据 不 能 修改 。Hive 以 HDFS 为 基础 ，Hive 表 里 的 数据 最 终 会 物理 存 
储 在 HDFS 上 ， 因 此 原生 的 Hive 是 不 文 持 insert ... values. update. delete 
等 事务 处 理 或 行 级 更 新 的 。 这 种 情况 直到 Hive 0.14 才 有 所 改变 。 该 版 本 
具有 一 定 的 事务 处 理 能 力 ， 在 此 基础 上 文 持 行 级 数据 更 新 。 


为 了 在 HDFS 上 文 持 事 务 ，Hive 将 表 或 分 区 的 数据 存储 在 基础 文件 
中 ， 而 将 新 增 的 、 修 改 的 、 删 除 的 记录 存储 在 一 种 称 为 delta 的 文件 中 。 
每 个 事务 都 将 产生 一 系列 delta 文 件 。 在 读 取 数据 时 Hive 合 并 基础 文件 和 
delta 文 件 ， 把 更 新 或 删除 操作 应 用 到 基础 文件 中 。 


Hive 己 经 文 持 完整 ACID 特性 的 事务 语义 ， 因 此 功能 得 到 了 扩展 ， 
增加 了 以 下 使 用 场景 : 











获取 数据 流 。 很 多 用 户 在 Hadoop 和 集群 中 使 用 了 诸如 Apache 
Flume、Apache Storm 或 者 Apache Kafka 进 行 流 数 据 处 理 。 这 些 工 
有 具 每 秒 可 能 写 数 百 行 甚至 更 多 的 数据 。 在 文 持 事务 以 前 ，Hive 只 
能 通过 增加 分 区 的 方式 接收 流 数 据 。 通 常 每 隅 15 分 钟 一 1 小 时 新 
建 一 个 分 区 ， 快 速 的 数据 载 入 会 导致 表 中 产生 大 量 的 分 区 。 这 种 
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的 分 区 中 装载 数据 时 ， 可 能 会 对 正在 读 取 数据 的 用 户 产 生 脏 读 ， 
也 就 是 说 ， 用 户 可 能 读 取 到 他 们 在 开始 查询 时 间 点 后 写 入 的 数 
据 。 二 是 会 在 表 目 录 中 遗留 大 量 的 小 数据 文件 ， 这 将 给 
NameNode 造 成 很 大 压力 。 文 持 事 务 功 能 后 ， 应 用 就 可 以 同 Hive 
表 中 持续 插入 数据 行 ， 避 免 产 生 太 多 的 文件 ， 并 且 癌 用 户 提供 数 
据 的 一 致 性 读 。 

处 理 渐 变 维 (Slow Changing Dimensions, SCD) 。 在 一 个 典型 的 
星 型 模式 数据 仓库 中 ， 维 度 表 随时 间 的 变化 很 缓慢 。 例 如 ， 一 个 
零售 商 开 了 一 家 新 商店 ， 需 要 将 新 店 数据 加 到 商店 表 ， 或 者 一 个 
己 有 商店 的 营业 面积 或 其 他 需要 跟踪 的 特性 改变 了 。 这 些 改变 会 
导致 插入 或 修改 个 别 记录 〔 依 赖 于 选择 的 策略 》。 从 0.14 版 开 
始 ，Hive 文 持 了 事务 及 行 级 更 新 ， 从 而 能 够 处 理 各 种 SCD 类 型 。 
数据 修正 。 有 时 候 我 们 需要 修改 已 有 的 数据 。 如 先前 收集 的 数据 
是 错误 的 ， 或 者 第 一 次 得 到 的 可 能 只 是 部 分 数据 (例如 90% 的 服 
务 器 报告 ) ， 而 完整 的 数据 会 在 后 面 提供 ， 或 者 业务 规则 可 能 要 
求 某 些 事 务 因 为 后 续 事务 而 重新 局 动 〈 例 如 ， 一 个 客户 购买 了 商 
品 后 ， 又 购买 了 一 张 会 员 卡 ， 因 此 获得 了 包括 之 前 所 购买 商品 在 
内 的 折扣 价格 。) ， 或 者 在 合作 关系 结束 后 ， 依 据 合同 需 要 删除 
客户 的 数据 等 。 这 些 数据 处 理 都 需要 执行 insert、update 或 delete 
操作 。 


Hive 0.14 后 开始 文 持 事务 ， 但 默认 是 不 文 持 的 ， 再 要 一 些 附加 的 配 























1. 配置 Hive 支 持 事 务 


CDH 5.7.0 包 含 的 Hive 版 本 是 1.1.0， 该 版 本 可 以 支持 事务 及 行 级 更 
新 ， 但 中 文 支持 问题 较 多 。 


(1) 编辑 hive-site.xml 配 置 文件 ， 添 加 支持 事务 的 属性 。 


vi /etc/hive/conf.cloudera.hive/hive-site.xml 

«1-- 添加 如 下 6 个 属性 以 文 持 事务 --> 

<property> 
<name>hive.support.concurrency</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.exec.dynamic.partition.mode</name> 
<value>nonstrict</value> 

</property> 

<property> 
<name>hive.txn.manager</name> 
<value>org.apache.hadoop.hive.ql.lockmgr .DbTxnManager</value 

</property> 

<property> 
<name>hive.compactor.initiator.on</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.compactor.worker.threads</name> 
<value>1</value> 

</property> 

<property> 
<name>hive.enforce.bucketing</name> 
<value>true</value> 

</property> 





各 个 属性 的 说 明 如 下 。 
e hive.support.concurrency: 默认 值 为 false，0.7.0 版 本 新 增 。 


指示 Hive 是 否 支持 并 发 。 为 了 支持 insert ... values、update、delete 事 
务 ， 该 值 需要 设置 为 true。 


e hive.exec.dynamic.partition.mode: 默认 值 为 strict，0.6.0 版 本 新 
增 。 


如 果 设 置 为 strict， 回 分 区 表 装 载 数据 时 ， 为 了 防止 用 户 意 外 获 兰 所 


有 分 区 ， 必 须 指定 至 少 一 个 静态 分 区 。 如 果 设 置 成 nonstrict， 则 所 有 分 
区 都 允许 动态 生成 。 为 了 文 持 insert ... values、update、delete 事 务 ， 该 值 


需要 设置 为 nonstrict。 


e hive.txn.manager: 默认 值 为 
org.apache.hadoop.hive.ql.lockmgr. DummyTxnManager. 


H org.apache.hadoop.hive.ql.lockmgr. Dummy TxnManagerfll 
org.apache.hadoop.hive.ql. lockmgr.DbTxnManager 两 种 取 值 。 前 者 是 Hive 
0.13 之 前 版 本 的 锁 管 理 器 ， 不 提供 事务 文 持 。 后 者 是 Hive 0.13.08 4s 73 
了 文 持 事务 新 加 的 属性 值 。 





e hive.compactor.initiator.on: 默认 值 为 false，0.13 版 本 新 增 。 


是 否 在 metastore 实 例 上 运行 initiator 和 cleaner 进 程 。initiator 进 程 负责 
查找 哪些 表 或 分 区 的 delta 文 件 应 该 压缩 以 获得 更 好 的 性 能 。cleaner 进 程 
负责 删除 已 经 不 再 需要 的 delta 文 件 。 为 了 文 持 事务 ， 需 要 在 运行 Thrift 
metastore 服 务 的 实例 上 设置 为 true。 





e hive.compactor.worker.threads: 默认 值 为 0，0.13 版 本 新 增 。 


有 多 少 工作 线程 在 Thrift metastore 实 例 上 运行 。 为 了 支持 事务 ， 需 
要 在 运行 Thrift metastore 服 务 的 一 个 或 多 个 实例 上 设置 为 正 整数 。 工 作 
线程 启动 MapReduce 作 业 压 缩 的 准备 工作 ， 但 它们 并 不 执行 真正 的 压 
缩 。 增 加 该 值 会 减少 表 或 分 区 在 压缩 时 需要 的 时 间 ， 但 同时 会 增加 
Hadoop 集 群 的 后 台 负 载 ， 因 为 会 有 更 多 的 MapReduce 作 业 在 后 人 台 运 行 。 





e hive.enforce.bucketing: Hive 0.x 和 Hive 1.x 的 默认 值 为 false，Hive 
2.X 已 将 该 属性 移 除 ， 效 果 等 同 于 该 属性 的 值 恒 为 true。 


是 否 强 制 使 用 数据 分 桶 。 如 果 设 置 为 tue， 在 同 表 中 插入 数据 时 强 
制 分 桶 。 必 须 设置 这 个 属性 ，Hive 才 会 按照 设置 的 桶 的 个 数 去 生成 数 
据 。 桶 是 更 为 细 粒 上 度 的 数据 范围 划分 ， 它 能 使 一 些 特定 的 查询 效率 更 
高 ， 比 如 对 于 具有 相同 的 桶 划分 并 且 连 接 的 列 刚好 就 是 在 桶 里 的 连接 查 
询 。 分 桶 还 有 一 个 用 途 是 查询 示例 数据 (TABLESAMPLE)〉， 对 于 一 个 
庞大 的 数据 集 我 们 经 常 需要 拿 出 来 一 小 部 分 作为 样 例 ， 然 后 在 样 例 上 验 
证 并 优化 查询 。 为 了 支持 insert ... values、update、delete 事 务 ， 该 值 需要 
设置 为 true。 


(2) 在 MySQL 中 添加 Hive 元 数据 。 











mysql -u root -p hive 
mysql» insert into 


next lock id values 


(1); 


mysql» insert into 


next compaction queue id values 


(OE 
mysql> insert into 


next_txn_id values 


(1); 
mysql> commit 





注意 ， 如 果 这 三 个 表 没 有 数据 ， 执 行 行 级 更 新 时 会 报 以 下 错误 : 


org.apache.hadoop.hive.ql.lockmgr.DbTxnManager FAILED: Error 


acquiring locks: Error communicating with the metastore. 


配置 Hive 支 持 事务 后 ， 需 要 重启 Hive 服 务 。 可 以 登录 Cloudera 
Manager 管 理 控制 台 执 行 重启 Hive 服 务 的 操作 。 单 击 “Hive”-、“ 操 
YE? “HR BN AY 





2. 测试 


使 用 hive 命 令 行 工 具 登 录 Hive。 


执行 下 面 的 HiveQL 语 句 ， 建 立 测 试 表 t1。 





use 


test; 
-- 建立 测试 表 
create table 





ti(id int 


, name string) 
clustered by 


(id) into 


8 buckets 
stored as 


in 


orc tblproperties ('transactional'-'true'); 
说 明 : 


。 必须 存储 为 ORC 格 式 。 

e 建 表 语句 必须 带 有 into buckets 子 句 和 stored as orc tblproperties 
(transactional'='true) 子 句 ， 并 且 不 能 带 有 sorted by 子 句 。 

e 关键 字 clustered 声 明 划 分 桶 的 列 和 桶 的 个 数 ， 这 里 以 id 来 划分 
桶 ， 划 分 8 个 桶 。Hive 会 计算 id 列 的 hash 值 再 以 桶 的 个 数 取 模 来 计 
算 某 条 记录 属于 哪个 桶 。 


测试 insert ... values 语 句 : 





insert into t1 values (1,'aaa'); 
insert into t1 values (2, 'bbb'); 
select * from t1; 


查询 结果 如 下 所 示 : 


hive> select * from t1; 

OK 

1 aaa 

2 bbb 

Time taken: 0.067 seconds, Fetched: 2 row(s) 


测试 update 语 人 句 : 


update 


ti set 


name='ccc' where 


id-1; 
select * from 


ti; 


查询 结果 如 下 所 示 : 


hive» select * from t1; 

OK 

1 Cee 

2 bbb 

Time taken: 0.103 seconds, Fetched: 2 row(s) 


测试 delete 语 句 : 


delete from ti where id-2; 
select * from t1; 


查询 结果 如 下 所 示 : 


hive» select * from t1; 

OK 

1 CCC 

Time taken: 0.089 seconds, Fetched: 1 row(s) 


iW A CA JEORC KR E Z o 


-- 创建 本 地 文本 文件 /root/a.txt 文 件 ， 内 容 如 下 : 
1,a,us,ca 
2,b,us,cb 
3,c,ca,bb 
4,d,ca,bc 


-- 建立 非 分 区 表 并 装载 数据 


USe 








test; 
drop table if exists 


t1; 
create table 


t1 (id int 
, name string, cty string, st string) row format 


delimited fields 
terminated by 


load data local 
inpath '/root/a.txt' into table 


ti; 


-- 建立 外 部 分 区 事务 表 并 装载 数据 


create external table 











t2 (id int 


, name string) partitioned by 


(country string, state 


查询 结果 如 下 所 示 : 


修改 数据 : 





insert into table t2 partition (country, state) values (5,'e','d 
update t2 set name='f' where id-1; 

delete from t2 where name='b'; 

select * from t2; 


得 询 结果 如 下 上 所 示 : 
hive» select * from t2; 
OK 
3 (6 ca bb 
4 d ca bc 
5 e dd dd 
1 f us ca 


Time taken: 0.149 seconds, Fetched: 4 row(s) 


说 明 : 


对 分 区 表 执 行 insert 时 ， 表 名 后 要 跟 partition 子 句 。 
不 能 修改 bucket 列 的 值 ， 否 则 会 报 以 下 错误 : FAILED: 
SemanticException [Error 10302]: Updating values of bucketing 


columns is not supported. Column id. 
对 已 有 非 ORC 表 的 转换 ， 只 能 通过 新 建 ORC 表 再 向 新 表 迁 移 数据 
的 方式 ， 直 接 修改 原 表 的 文件 格式 属性 是 不 行 的 有 兴趣 的 读者 
可 以 自己 试 一 试 ， 我 是 踩 过 坑 了 )。 


6.2.3 ” Hive 事务 支持 的 限制 








现在 的 Hive 虽 然 已 经 支持 了 事务 ， 但 是 并 不 完善 ， 存 在 很 多 限制 。 
还 不 能 像 使 用 关系 数据 库 那 样 来 操作 Hive， 这 是 由 MapReduce 计 算 框 架 
和 CAP 理 论 所 决定 的 〈3.5 节 有 对 CAP 理 论 的 介绍 ) 。Hive 事 务 处 理 的 局 
限 性 体现 在 以 下 几 个 方面 。 


e 和 暂 不 支持 BEGIN、COMMIT 和 ROLLBACK 语 句 ， 所 有 HiveQL 语 
句 都 是 自动 提交 的 。Hive 计 划 在 未 来 版 本 支持 这 些 语句 。 
。 现 有 版 本 只 文 持 ORC 文 件 格式 ， 未 来 可 能 会 文 持 所 有 存储 格式 。 





6.3 


Hive 24 K P AY BET iO De EMERIXHyrow id， 用 于 行 级 
的 update 或 delete 操 作 。 这 项 功能 很 值得 期 竺 ， 但 目前 来 看 进展 不 
Ke 
默认 配置 下， 事务 功能 是 关闭 的 ， 必 须 进 行 一 些 配置 才能 使 用 事 
务 ， 易 用 性 不 理想 。 

使 用 事务 的 表 必 须 分 彬 ， 而 相同 系统 上 不 使 用 事务 和 ACID 特性 
的 表 则 没有 此 限制 。 

外 部 表 的 事务 特性 有 可 能 失效 。 

不 允许 从 一 个 非 ACID 的 会 话 读 写 事务 表 。 换 句 话 说， 会话 中 的 
锁 管 理 器 变量 必须 设置 成 
org.apache.hadoop.hive.ql.lockmgr.DbTxnManager， 才 能 与 事务 表 
— ILE. 

当前 版 本 只 文 持 快照 级 别 的 事务 隔离 。 当 一 个 得 询 开 始 执行 后 ， 
Hive 提 供给 它 一 个 查询 开始 时 间 点 的 数据 一 致 性 快照 。 传 统 事务 
的 脏 读 、 读 提交 、 可 重复 读 或 串 行 化 隔离 级 别 都 不 支持 。 计 划 引 
入 的 BEGIN 语 句 ， 目 的 就 是 在 事务 执行 期 间 文 持 快照 隔离 级 别 ， 
而 不 仅仅 是 面 癌 单一 语句 。Hive 官 方 称 会 依赖 用 户 需 求 增加 其 他 
ISP EP 

ZooKeeper 和 内 存 锁 管 理 器 与 事务 不 兼容 。 








Hive 表 分 类 


1. 管理 表 





我 们 前 面 创建 的 大 部 分 表 是 管理 表 ， 有 时 也 被 称 为 内 部 表 。 因 为 
Hive 会 控制 这 些 表 中 数据 的 生命 周期 。 默 认 情 况 下 ，Hive 会 将 这 些 表 的 
数据 存储 在 由 hive-site.xml 文 件 中 属性 hive.metastore.warehouse.dir 所 定义 





目录 的 子 目 录 下 。 当 我 们 删除 一 个 管理 表 时 ，Hive 也 会 删除 这 个 表 中 的 


数据 。 


管理 表 的 主要 问题 是 只 能 用 Hive 访 问 ， 不 方便 和 其 他 系统 共享 数 
据 。 例 如 ， 假 如 有 一 份 由 Pig 或 其 他 工具 创建 并 且 主要 由 这 一 工具 使 用 
的 数据 ， 同 时 和 希望 使 用 Hive 在 这 份 数据 上 执行 一 些 碍 询 ， 可 是 并 没有 给 
子 Hive 对 数据 的 所 有 权 ， 这 时 就 不 能 使 用 管理 表 了 。 我 们 可 以 创建 一 个 
外 部 表 指 同 这 份 数据 ， 而 并 不 需要 对 其 具有 所 有 权 。 


2. 外 部 表 











前 面 对 已 有 非 ORC 表 的 转换 示例 中 已 经 创建 过 一 个 外 部 表 。 我 们 再 
来 看 一 个 Hive 文 档 中 外 部 表 的 例子 。 

create external table page view(viewtime int, userid bigint, 
page url string, referrer url string, 
ip string comment 'ip address of the user', 
country string comment 'country of origination') 

comment 'this is the staging page view table' 

row format delimited fields terminated by '\054' 


stored as textfile 
location '<hdfs_location>'; 


上 面 的 语句 建立 一 个 名 为 page_view 的 外 部 表 。EXTERNAL 关 键 字 
告诉 Hive 这 是 一 个 外 部 表 ， 后 面 的 LOCATION 子 句 指 示 数 据 位 于 HDFS 
的 哪个 路 径 下 ， 而 不 使 用 hive.metastore.warehouse.dir 定 义 的 默认 位 置 。 
外 部 表 方 便 对 已 有 数据 的 集成 。 


因为 表 是 外 部 的 ， 所 以 Hive 并 不 认为 其 完全 拥有 这 个 表 的 数据 。 在 
对 外 部 表 执 行 删除 操作 时 ， 只 征 删除 邱 描 述 表 的 元 数据 信息 ， 并 不 会 删 
除 表 数据 。 


我 们 需要 清楚 的 重要 一 点 是 管理 表 和 外 部 表 之 间 的 差异 要 比 看 起 来 
的 小 得 多 。 即 使 对 于 管理 表 ， 用 户 也 可 以 指定 数据 是 存储 在 哪个 路 径 下 
的 ， 因 此 用 户 也 可 以 使 用 其 他 工具 〈 如 hdfs 的 dfs 命 令 等 ) 来 修改 甚至 删 
除 管 理 表 所 在 路 径 下 的 数据 。 从 严格 意义 上 说 ，Hive 是 管理 着 这 些 目录 























和 文件 ， 但 是 并 不 具有 对 它们 的 完全 控制 权 。Hive 实 际 上 对 于 所 存储 的 
文件 的 完整 性 以 及 数据 内 容 是 否 和 表 结 构 一 致 并 没有 支配 能 力 ， 甚 至 管 
理 表 都 没有 给 用 户 提 供 这 些 管理 能 
用 户 可 以 在 DESCRIBE FORMATTED tablename 语 句 的 输出 中 看 到 
是 管理 表 还 是 外 部 表 。 对 于 管理 表 ， 用 户 可 以 看 到 如 下 信息 : 








Table Type: MANAGED TABLE 


对 于 外 部 表 ， 用 户 可 以 看 到 如 下 信息 : 


Table Type: EXTERNAL TABLE 








用 户 还 可 以 对 一 张 存在 的 表 只 复制 其 表 结 构 而 不 复制 数据 : 


create external table if not exists 


mydb.empty key value store 
like 


mydb.key value store 
location '/path/to/data'; 


注意 ， 如 果 上 面 语句 中 省 略 掉 EXTERNAL 关 键 字 而 且 源 表 是 外 部 
表 的 话 ， 那 么 生成 的 新 表 也 将 是 外 部 表 。 如 果 语 句 中 省 略 掉 
EXTERNAL 关 键 字 而 且 源 表 是 管理 表 的 话 ， 那 么 生成 的 新 表 也 将 是 管 
理 表 。 但 是 ， 如 果 语 句 中 包含 有 EXTERNAL 关 键 字 而 且 源 表 是 管理 表 
的 话 ， 那 么 生成 的 新 表 将 是 外 部 表 。 即 使 在 这 种 场景 下 ，LOCATION 子 
句 同样 是 可 选 的 。 














3. 分 区 表 


和 其 他 数据 库 类 似 ，Hive 中 也 有 分 区 表 的 概念 。 分 区 表 的 优势 体现 
在 可 维护 性 和 性 能 两 方面 ， 而 且 分 区 表 还 可 以 将 数据 以 一 种 符合 业务 逻 
辑 的 方式 进行 组 织 ， 因 此 是 数据 仓库 中 经 种 使 用 的 一 种 技术 。 管 理 表 和 
外 部 表 都 可 以 创建 相应 的 分 区 表 ， 分 别称 之 为 管理 分 区 表 和 外 部 分 区 
表 。 








(1) 管理 分 区 表 


先 看 一 个 管理 分 区 表 的 例子 : 


create table 


page view(viewtime int 


, userid bigint 


page_url string, referrer_url string, 
ip string comment 


'ip address of the user') 
comment 


'this is the page view table' 
partitioned by 


(dt string, country string) 


row format 


delimited fields terminated by 


'N001' 
stored as 


sequencefile; 


CREATE TABLE 语 名 的 PARTITIONED BY 子 句 用 于 创建 分 区 表 。 
上 面 的 语句 创建 一 个 名 为 page_view 的 分 区 表 。 这 是 一 个 背 见 的 页 面 浏 
览 记 录 表 ， 包 含 浏览 时 间 、 浏 览 用 户 ID、 浏 览 页 面 的 URL、 上 一 个 访问 
的 URL 和 用 户 的 IP 地 址 五 个 字段 。 该 表 以 日 期 和 国家 作为 分 区 字段 ， 存 
储 为 SEQUENCEFILE 文 件 格式 。 文 件 中 的 数据 分 别 使 用 默认 的 Ctrl-A 和 
换行 符 作 为 列 和 行 的 分 隔 符 。 

DESCRIBE FORMATTED 命 令 会 显示 出 分 区 键 : 





hive> DESCRIBE FORMATTED page view; 


# col name data type comment 

viewtime int 

userid bigint 

page url string 

referrer url string 

ip string IP Address of the User 


# Partition Information 


# col name data type comment 
dt string 
country string 


和 输出 信息 中 把 表 字 段 和 分 区 字段 分 开 显 示 。 这 两 个 分 区 键 当 前 的 注 
释 都 是 空 ， 我 们 也 可 以 像 给 普通 字段 增加 注释 一 样 给 分 区 字段 增加 注 


RE. 





分 区 表 改 变 了 Hive 对 数据 存储 的 组 织 方式 。 如 果 是 一 个 非 分 区 表 ， 
那么 只 会 有 一 个 page_view 目 录 与 之 对 应 ， 而 对 于 分 区 表 ， 当 向 表 中 装 
载 数据 后 ，Hive 将 会 创建 好 可 以 反映 分 区 结构 的 子 目 录 。 在 之 后 的 6.4 节 
将 会 看 到 分 区 结构 目录 的 例子 。 分 区 字段 一 旦 创建 好 ， 表 现 得 就 和 普通 
字段 一 样 。 事 实 上 ， 除 非 需要 优化 查询 性 能 ， 否 则 用 户 不 需要 关心 字段 
是 否 是 分 区 字段 。 需 要 注意 的 是 ， 分 区 字段 的 值 包 含 在 目录 名 称 中 ， 而 
不 在 它们 目录 下 的 文件 中 。 也 有 分 区 字段 的 值 不 包含 在 目录 名 称 中 的 情 
况 ，6.4 市 将 看 到 一 个 这 样 的 例子 。 

对 数据 进行 分 区 ， 最 重要 的 原因 就 是 为 了 更 快 地 查询 。 如 打 用 户 的 
查询 包含 “where dt = '...' and country = '.. 必 这 样 的 条 件 ， 查 询 优化 器 只 需 
要 扫描 一 个 分 区 目录 即 可 。 即 使 有 很 多 日 期 和 国家 的 目录 ， 除 了 一 个 目 
录 其 他 的 都 可 以 忽略 不 计 ， 这 束 是 所 谓 的 “分 区 消除 "。 对 于 非常 大 的 数 
据 集 ， 利 用 分 区 消除 特性 可 以 显著 地 提高 查询 性 能 。 当 我 们 在 WHERE 
子 句 中 增加 谓词 来 按照 分 区 值 进行 过 滤 时 ， 这 些 谓词 被 称 为 分 区 过 滤 
f o 
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询 的 是 表 中 的 全 部 数据 ， 那 么 Hive 不 得 不 读 取 表 目录 下 的 每 个 子 目 录 ， 
这 种 宽 范 围 的 磁盘 扫描 是 应 该 尽量 避免 的 。 如 果 表 中 的 数据 以 及 分 区 个 
数 都 非常 大 的 话 ， 执 行 这 样 一 个 包含 所 有 分 区 的 碍 询 可 能 会 触及 一 个 巨 
大 的 MapReduce 任 务 。 一 个 强烈 建议 的 安全 措施 是 将 Hive 设 置 为 严格 
mapred 模 式 ， 这 样 如 果 对 分 区 表 进行 查 询 而 WHERE 子 句 没 有 加 分 区 过 
滤 的 话 ， 将 会 禁止 提交 这 个 查询 。 
hive» set hive.mapred.mode=strict; 
hive> select * from page_view; 

FAILED: SemanticException [Error 10041]: No partition predicate 


Table "page_view" 
hive> set hive.mapred.mode=nonstrict; 


创建 分 区 表 时 ， 普 通 字段 与 分 区 字段 不 能 重 名 ， 人 个 则 将 报 如 下 错 





























Re 
hive> create table table_name ( 
> id int, 
> date string, 
> name string 
> ) 
> partitioned by (date string); 
FAILED: SemanticException [Error 10035]: Column repeated in part 


(20 外 部 分 区 表 


外 部 表 同 样 可 以 使 用 分 区 ， 事 实 上 ， 这 是 管理 大 型 生产 数据 集 最 和 
见 的 情况 。 这 种 结合 给 用 户 提 供 了 一 个 可 以 和 其 他 工具 共 至 数据 的 方 
式 ， 同 时 也 可 以 优化 但 询 性 能 。 由 于 用 户 能 够 自己 定义 目录 结构 ， 因 此 
用 户 对 于 目录 结构 的 使 用 具有 更 多 的 灵活 性 。 日 志文 件 分 析 束 非常 适合 
这 种 场景 。 

例如 我 们 有 一 个 用 户 下 载 手机 APP 的 日 志文 件 ， 其 中 记录 了 手机 操 
作 系 统 、 下 载 时 间 、 下 载 渠 道 、 下 载 的 APP、 下 载 用 户 和 其 他 杂项 信 
恩 ， 杂 项 信息 使 用 一 个 JSON 字 符 吕 表示。 应 用 程序 每 天 会 生成 一 个 新 
的 日 志文 件 。 我 们 可 以 按照 如 下 方式 来 定义 对 应 的 Hive 表 : 














create external table logs( 


platform string, 
createtime string, 
channel string, 
product string, 
userid string, 
content map<string,string>) 


partitioned by (dt int) 
row format delimited fields terminated by '\t' 
location 'hdfs://cdh2/logs'; 


我 们 建立 了 一 个 外 部 分 区 表 ，dt 是 分 区 字段 ， 它 是 日 期 的 整数 表 
示 。 将 日 志 数 据 按 天 进行 分 区 ， 划 分 的 数据 量 大 小 合适 ， 而 且 按 天 这 个 
粒度 进行 查询 也 能 满足 需求 。 每 天 定时 执行 以 下 的 shell 脚 本 ， 把 前 一 天 
生成 的 日 志文 件 装 载 进 Hive。 脚 本 执行 后 ， 就 可 以 使 用 Hive 表 分 析 前 一 





天 的 日 志 数 据 了 。 脚 本 中 使 用 hive 命 令 行 工具 的 -e 参 数 执行 HiveQL 语 
句 。 关 于 Hive 的 命令 行 工具 ， 将 会 在 第 8 章 详 细 介绍 。 


#!/bin/bash 

# 设置 环境 变量 

source /home/work/.bash profile 

# 取得 前 一 天 的 日 期 ， 格 式 为 yyyymmdd， 作 为 分 区 的 目录 名 
dt-$(date -d last-day +%Y%m%d ) 

# 建立 HDFS 目 录 

hadoop fs -mkdir -p /logs/$dt 

# 将 前 一 天 的 日 志文 件 上 传 到 HDFS 的 相应 目录 中 

hadoop fs -put /data/statsvr/tmp/logs $dt /logs/$dt 
# 给 Hive 表 增加 一 个 新 的 分 区 ， 指 向 刚 建 的 目录 

hive --database logs -e "alter table logs add partition(dt-$dt) 
'hdfs://cdh2/1ogs/$dt'" 














Hive 并 不 关心 一 个 分 区 对 应 的 分 区 目录 是 否 存在 或 者 分 区 目录 下 是 
否 有 了 文件。 如果 分 区 目录 不 存在 或 分 区 目录 下 没有 文件 ， 则 对 于 这 个 分 
区 的 查询 将 没有 返回 结果 。 当 用 户 想 在 另外 一 个 进程 开始 往 分 区 中 写 数 
气 之 前 创建 好 分 区 时 ， 这 样 处 理 是 很 方便 的 。 数 据 一 旦 存在 ， 对 它 的 得 
询 就 会 有 返回 结果 。 

这 个 功能 所 具有 的 男 一 个 好 处 是 ， 可 以 将 新 数据 写 入 到 一 个 专用 的 
目录 中 ， 并 与 位 于 其 他 目录 中 的 数据 存在 明显 的 区 别 。 不 管用 户 是 将 旧 
数据 转移 到 一 个 归档 位 置 还 是 直接 删除 掉 ， 新 数据 被 复 改 和 误 删 除 的 风 
险 被 降低 了 ， 因 为 新 数据 位 于 不 同 的 目录 下 。 


和 非 分 区 外 部 表 一 样 ，Hive 并 不 控制 数据 ， 即 使 表 被 删除 ， 数 据 也 
不 会 被 删除 。 

















6.4 向 Hive 表 装载 数据 


在 6.2 节 我 们 尝试 了 对 支持 事务 的 Hive 表 进行 行 级 数据 插入 和 更 新 ， 
这 使 得 用 Hive 处 理 多 维 数据 仓库 的 渐变 维 成 为 可 能 。 本 市 讨论 Hive 里 更 
加 普遍 的 数据 装载 方式 。 我 们 将 用 示例 分 别 说 明 非 分 区 表 和 分 区 表 的 数 


HRR, YET QUUD Oa RET SS AT RGA. AS PRESOSHITE, AEH 
的 示例 尽量 简单 ， 而 且 不 带 有 任何 业务 含义 ， 只 是 用 于 演示 Hive 的 功 
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1. 癌 非 分 区 表 中 装载 数据 
(1) 使 用 load 


我 们 先 准备 一 个 本 地 文本 文件 a.txt， 其 中 只 有 一 行 记录 'aaa'。 


mkdir test 
cd test 
echo 'aaa' » a.txt 


然后 将 这 行 记 录 装 载 到 一 个 表 中 ， 并 查看 HDFS 上 生成 的 数据 文 
件 。 


hive> use 





test; 
hive» drop table if exists 


t1; 
hive» create table 


ti(name string); 
hive» 


load data local 


inpath '/root/test' into table 


t1; 
hive» select * from 


Ed 
aaa 
hive» 


dfs -ls /Vuser 


/hive/warehouse/test.db/t1; 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 13:52 /user 


/hive/warehouse/test.db/ti/a. txt 
hive> dfs -cat /user 


/hive/warehouse/test.db/ti/a.txt; 
aaa 


可 以 看 到 ，hive 命 令 行 中 除了 可 以 执行 HiveQL 语 句 ， 还 可 以 执行 
Hadoop 的 dfs 命 令 。Load 语 句 实际 执行 的 是 一 个 复制 文件 的 操作 。 通 党 
我 们 在 load 语 句 中 指定 的 路 径 是 一 个 目录 ， 而 不 是 单个 独立 的 文件 。 
Hive 会 将 该 目录 下 的 所 有 文件 都 复制 到 目标 位 置 。 这 使 得 用 户 将 更 方便 
地 组 织 数 据 到 多 个 文件 中 ， 同 时 可 以 在 不 修改 Hive 脚 本 的 前 提 下 修改 文 
件 命名 规则 。 文 件 会 被 复制 到 目标 路 径 下 而 且 文件 名 保持 不 变 。 











上 面 的 HiveQL 语 句 同 t1 表 中 装载 了 数据 'aaa'"， 并 在 默认 的 数据 仓库 
目录 下 生成 了 数据 文件 /user/hive/warehouse/test.db/t1/a.txt， 实 际 上 数据 
文件 是 纯 文 本 格式 ， 内 容 就 是 'aaa'。 


在 本 地 文件 atxt 中 添加 一 行 bbb'。 


echo 'bbb' >> a.txt 





然后 再 执行 下 面 的 HiveQL 语 句 并 碍 看 结 


hive» load data local 


inpath '/root/test' into table 


t1; 
hive» select * from 


ti: 
aaa 
aaa 
bbb 
hive> dfs -ls /user 


/hive/warehouse/test.db/t1; 
Found 


2 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 13:52 /user 


/hive/warehouse/test.db/ti/a.txt 
-rwxrwxrwt 3 root hive 8 2016-10-20 14:18 
/user 


/hive/warehouse/test.db/ti1/a copy 1.txt 


hive» 


dfs -cat /user 


/hive/warehouse/test.db/t1/a.txt; 


aaa 
hive» 


dfs -cat /user 


/hive/warehouse/test.db/t1/a copy 1.txt; 


aaa 
bbb 





可 以 看 到 ， 现 在 表 中 有 三 条 数据 ， 并 且 新 生成 了 数据 文件 
a_copy_1.txt。 原 来 的 a.txt 文 件 中 的 内 容 还 是 'aaa'"， 新 生成 的 a_copy_1.txt 
文件 中 的 内 容 是 第 二 次 装载 的 两 行 数据 。 也 就 是 说 ， 如 果 目 标 中 装载 的 
文件 已 经 存在 ， 那 么 再 次 装载 会 生成 一 个 原文 件 的 复制 ， 表 中 数据 对 应 
的 是 表 目 录 下 的 所 有 文件 的 内 容 。 





(2) load overwrite 


这 次 在 load 语 句 中 增加 了 overwrite 关 键 字 ， 情 况 会 有 所 不 同 。 执 行 
下 面 的 语句 并 碍 看 结果 : 


hive» 
hive» 
hive» 
hive» 
aaa 

bbb 

hive» 
Found 





drop table if exists t2; 

create table t2 (name string); 

load data local inpath '/root/test' overwrite into table t 
select * from t2; 


dfs -ls /user/hive/warehouse/test.db/t2; 
1 items 


-rwxrwxrwt 3 root hive 8 2016-10-20 14:43 /user/hive/ 


hive» 
aaa 
bbb 


dfs -cat /user/hive/warehouse/test.db/t2/a.txt; 








可 以 看 到 ， 现 在 t2 表 中 有 两 条 数据 ， 在 表 目 录 下 生成 了 数据 文件 
a.txt。 现 在 编辑 本 地 文件 a.txt， 使 其 只 有 一 行 'ccc'。 


echo 'ccc' » a.txt 


然后 再 执行 下 面 的 语句 : 


hive> load data local 


inpath '/root/test' overwrite into table 


t2 
hive» select * from 


t2; 
Ccc 
hive» dfs -ls /user 


/hive/warehouse/test.db/t2; 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 14:50 /user 


/hive/warehouse/test.db/t2/a.txt 
hive» dfs -cat /user 


/hive/warehouse/test.db/t2/a.txt; 
CCC 


可 以 看 到 ， 现 在 表 中 只 有 一 条 数据 "ccc， 数 据 文 件 名 没 变 ， 但 其 内 
容重 新 生成 。 


2. 癌 分 区 表 中 装载 数据 





(1) load 
准备 本 地 文本 文件 atxt， 其 中 只 有 一 行 'aaa， 然 后 执行 下 面 的 语 名 
并 查看 结果 : 
hive> create table 
t1 (name string) partitioned by 


(country string, state 


string); 
hive> dfs -ls /user 


/hive/warehouse/test.db/t1; 
hive» load data local 


inpath '/root/test' into table 


t1 partition 


(country - 'us', state 


= 'ca'); 
hive» select * from 


t1; 
aaa us ca 
hive> dfs -ls /user 


/hive/warehouse/test.db/ti/country=us/state 


=Car 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 15:10 
/user 


/hive/warehouse/test.db/ti/country=us/state 


=ca/a.txt 





可 以 看 到 ， 建 并 t1 表 后 ， 装 载 数据 前 ， 表 目录 下 没有 任何 文件 。 
load 语 句 创 建 了 分 区 目录 country=us/state=ca， 并 将 本 地 文件 复制 到 分 区 
目录 下 。 从 查询 的 角度 看 ，| 可 tl1 表 中 装载 了 数据 'aaa'"。 查 询 结 果 显 示 了 
三 列 ， 除 了 原始 的 文本 文件 中 的 数据 ， 还 包括 两 个 分 区 列 的 值 。 分 区 列 
总 是 在 表 的 最 后 显示 。 


load overwrite 装 载 数据 与 非 分 区 表 类 似 ， 不 再 歼 述 。 

















(2) alter table tablename add partition 


执行 下 面 的 语句 : 


hive» alter table 


t1 add partition 


(country - 'us', state 


= 'cb') location '/a'; 
hive» dfs -ls /user 


/hive/warehouse/test.db/ti/country=us; 
Found 


1 items 
drwxrwxrwt - root hive 0 2016-10-20 15:40 
/user 


/hive/warehouse/test.db/ti/country=us/state 


sca 
hive» select * from 


ti: 
aaa us ca 
hive> dfs -cp /user 


/hive/warehouse/test.db/ti/country=us/state 


-ca/a.txt /a; 
hive» select * from 


(eal 
aaa us ca 
aaa us cb 
hive> dfs -ls /user 


/hive/warehouse/test.db/ti/country=us; 
Found 


1 items 
drwxrwxrwt - root hive 0 2016-10-20 15:40 
/user 


/hive/warehouse/test.db/ti/country=us/state 


=ca 
hive> dfs -ls /a; 
Found 
1 items 
-rw-r--r-- 3 root supergroup 4 2016-10-20 15:41 /a/a. 


hive» dfs -rm /user 


/hive/warehouse/test.db/ti/country=us/state 


-ca/a.txt; 
hive» select * from 


tii 
aaa us cb 
说 明 : 表 中 原 有 一 条 数据 'aaa'。 添 加 一 个 新 分 区 ， 并 指定 位 置 
为 /a'。 把 已 经 存在 的 数据 文件 a.txt 复 制 到 目录 '/a' 里 。 此 时 查询 表 已 经 有 
属于 不 同 分 区 的 两 条 数据 。 删 除 country = ms' 且 state = 'ca' 分 区 的 数据 文 
件 。 此 时 查询 表 只 有 属于 country = "us' 且 state = 'cb' 分 区 的 一 条 数据 。 整 
个 过 程 中 HDFS 上 都 没有 存在 过 country = 'us'/state = 'cb' 的 子 目 录 。 


通过 以 上 的 演示 示例 ， 我 们 对 Hive 表 的 数据 装载 特性 总 结 如 下 : 

















e loadload overwrite X yjz: load 每 次 执行 生成 新 的 数据 文 
件 ， 文 件 中 是 本 次 装载 的 数据 。load overwrite 如 表 (或 分 区 ) 的 
数据 文件 不 存在 则 生成 ， 存 在 则 重新 生成 数据 文件 内 容 。 

e 分 区 表 比 非 分 区 表 多 了 一 种 alter table ... add partition 的 数据 装载 

e 对 于 分 区 表 【无论 内 部 还 是 外 部 ) ，load 与 load overwrite 会 自动 
建立 名 为 分 区 键 值 的 目录 ， 而 alter table ... add partition， 只 要 用 
location 指 定数 据 文件 所 在 的 目录 即 可 。 

e 对 于 外 部 表 ， 除 了 在 删除 表 时 只 删除 元 数据 而 保留 表 数 据 目 录 
外 ， 其 数据 装载 行为 与 内 部 表 相 同 《〈 外 部 表 的 实验 没有 列 出 ) 。 











3. 动态 分 区 插入 


前 面 的 示例 都 是 静态 分 区 ， 也 就 是 说 在 装载 数据 前 ， 分 区 键 的 值 是 
己 知 的 。 在 这 种 情况 下 ， 如 果 需 要 建立 的 分 区 非常 多 ， 那 么 就 不 得 不 写 
很 多 的 HiveQL 语 名。 不 过 Hive 提 供 了 一 个 动态 分 区 功能 ， 可 以 基于 奉 
询 的 参数 推断 出 需要 创建 的 分 区 名 称 。 下 面 用 一 个 示例 验证 分 区 表 的 动 
态 分 区 插入 功能 ， 并 验证 是 否 可 以 使 用 load 进 行动 态 分 区 插入 。 





(1) 在 本 地 文件 /root/test/a.txt 中 写 入 以 下 4 行 数据 : 


aaa, US, CA 
aaa, US, CB 
bbb, CA, BB 
bbb, CA, BC 


(20 建立 非 分 区 表 并 装载 数据 ，HiveQL 语 句 及 其 执行 结果 显示 如 
T: 


hive» drop table if exists t1; 

hive» create table t1 (name string, cty string, st string) row f 
terminated by ','; 

hive» load data local inpath '/root/test' into table t1; 

hive» select * from t1; 


aaa US CA 
aaa US CB 
bbb CA BB 
bbb CA BC 


hive> dfs -ls /user/hive/warehouse/test.db/t1; 
Found 1 items 
-rwxrwxrwt 3 root hive 40 2016-10-20 16:16 /user/hive/ 


(3) 建立 外 部 分 区 表 并 动态 装载 数据 。 


hive> create external table 


t2 (name string) partitioned by 


(country string, state 


string); 
hive> set 


hive.exec.dynamic.partition=true 


F 
hive> set 


hive .exec . dynamic . partition .mode 


-nonstrict; 
hive» set 


hive.exec.max.dynamic 


.partitions.pernode-1000; 
hive» insert into table 


t2 partition 


(country, state 


) select 


name, cty, st from 


ti; 
hive> insert into table 


t2 partition 


(country, state 


) select 


name, 


ti; 


hive» select * from 


t2; 
bbb CA 
bbb CA 
bbb CA 
bbb CA 
aaa US 
aaa US 
aaa US 
aaa US 


hive> dfs -ls /user 


/hive/warehouse/test.db/t2/; 


Found 


2 items 


cty, 


BB 
BB 
BC 
BC 
CA 
CA 
CB 
CB 


drwxrwxrwt 


/user 


- root hive 


0 2016-10-20 16:19 


/hive/warehouse/test.db/t2/country-CA 
drwxrwxrwt 


/user 


- root hive 


0 2016-10-20 16:19 


/hive/warehouse/test.db/t2/country-US 
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条 数据 ， 动 态 建立 了 两 个 分 区 目录 。 


动态 分 区 功能 默认 情况 下 是 不 开局 的 。 分 区 以 “严格 ”模式 执行 ， 在 
这 种 模式 下 要求 至 少 有 一 个 分 区 列 是 静态 的 。 这 有 助 于 阻止 因 设计 错误 


导致 查询 产生 大 量 的 分 区 。 还 有 一 些 属 性 用 于 限制 资源 使 用 。 表 6-3 所 


示 描 述 了 这 些 属 性 。 


表 6-3 ”限制 资源 使 用 的 属性 


属性 名 称 默认 值 | 描述 


hive.exec.dynamic.partition false 


hive.exec.dynamic.partition.mode | strict 











设置 成 true， 表 示 开 局 动态 分 区 功能 
设置 成 nonstrict， 表 示人 允许 所 有 分 区 都 是 动态 的 





一 


hive.exec.max.dynamic.partitions. 00 


pernode 


hive.exec.max.dynamic.partitions 1000 


hive.exec.max.created.files 100000 











每 个 mapper 或 reducer 可 以 创建 的 最 大 动态 分 区 个 数 。 如 果 
某 个 mapper 或 reducer 尝试 创建 大 于 这 个 值得 分 区 的 话 ， 会 
抛 出 一 个 致命 错误 信息 

一 个 动态 分 区 创建 语句 可 以 创建 的 最 大 动态 分 区 个 数 。 如 果 
超过 这 个 值 ， 会 抛 出 一 个 致命 错误 信息 

全 局 可 以 创建 的 最 大 文件 个 数 。 有 一 个 Hadoop 计数 器 会 跟 
踪 记 录 创 建 了 多 少 个 文件 ， 如 果 超 过 这 个 值 ， 会 抛 出 一 个 致 


命 错误 信息 





(4) 编辑 atxt， 使 其 有 以 下 4 行 数据 ， 然 后 执行 后 面 的 语句 并 碍 看 


+ 
结 


aaa, US, CD 
aaa, US, CE 
ccc, CB, BB 
ccc, CB, BC 
hive» load data local 


inpath '/root/test' overwrite into table 


tai 
hive> insert 


overwrite table 


t2 partition 


(country, state 


) select 


name, cty, st from 


(ELE 
hive» select * from 


aaa US CD 
aaa US CE 
hive> dfs -ls /user 


/hive/warehouse/test.db/t2/; 
Found 


3 items 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test .db/t2/country=CA 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test.db/t2/country-CB 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test.db/t2/country=US 
hive> dfs -ls /user 


/hive/warehouse/test.db/t2/country=US; 
Found 


4 items 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test.db/t2/country=US/state 


=CA 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test.db/t2/country=US/state 


=CB 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test.db/t2/country=US/state 


=CD 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test.db/t2/country=US/state 


=CE 








可 以 看 到 ， 现 在 表 中 有 12 条 数据 ，OVERWRITE 并 没有 履 盖 原来 的 
分 区 ， 而 是 追加 了 4 条 数据 ， 并 且 动 态 建立 了 新 的 分 区 目录 。 在 动态 分 
区 插入 功能 上 ， 管 理 分 区 表 和 外 部 分 区 表 的 行为 相同 ， 演 示 从 略 。 


(5) 使 用 load 做 动态 分 区 插入 。 





hive» load data local 


inpath '/root/test' into table 


t2 partition 


(country, state 


/ 
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hiv 
MetaException(message:Invalid partition key & values 


; keys [country, state 


, ], values []) 


可 以 看 到 ，load 命 令 不 支持 动态 分 区 插入 。 
通过 以 上 的 示例 ， 我 们 对 Hive 表 的 动态 分 区 插入 总 结 如 下 : 
e OVERWRITE 不 会 删除 已 有 的 分 区 目录 ， 只 会 奶 加 新 分 区 ， 并 履 


m CH AT CBE) CCS o 
。 不 能 使 用 LOAD 进 行动 态 分 区 插入 。 
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本 章 前 面 做 了 很 多 Hive 表 上 的 实验 ， 目 的 都 是 为 了 在 Hive 中 建立 数 
据 仓 库 相 关 的 表 做 技术 准备 。 现 在 我 们 已 经 清楚 了 Hive 文 持 的 文件 格式 
和 表 类 型 ， 以 及 如 何 文 持 事务 和 装载 数据 等 问题 ， 下 面 就 来 创建 6.1 节 
销售 订单 数据 仓库 中 的 表 。 在 这 个 场景 中 ， 源 数据 库 表 就 是 操作 型 系统 
的 模拟 。 我 们 在 cdh1 上 的 MySQL 中 建立 源 数据 库 表 。RDS 存 储 原始 数 
据 ， 作 为 源 数据 到 数据 仓库 的 过 渡 ， 在 cdh2 上 的 Hive 中 建 六 RDS 库 表 。 


TDS 即 为 转化 后 的 多 维 数据 仓库 ， 在 cdh2 上 的 Hive 中 建立 TDS 库 表 。 


有 几 点 需要 说 明 ， 我 们 假设 该 者 有 SQL 的 使 用 经 验 ， 所 以 不 会 对 基 
本 的 SQL 语句 做 过 多 的 解释 。Hive 表 我 们 没有 使 用 外 部 表 和 分 区 表 ， 只 
是 用 了 最 普通 的 表 类 型 ， 这 出 于 两 点 考虑 。 一 是 本 示例 的 目的 是 说 明 
Hadoop 生 态 圈 的 工具 可 以 满足 建设 传统 多 维 数据 仓库 的 技术 要 求 ， 而 不 
征 展示 某 一 种 工具 的 全 部 特性 ， 二 是 本 示例 更 像 是 一 个 POC 验 证 ， 我 们 
尽量 简化 用 例 ， 不 过 多 涉及 性 能 优化 、 缓 存 、 安 全 或 其 他 复杂 主题 。 








1. 执行 下 面 的 SQL 语 句 在 MySQL 中 建立 源 数据 库 表 


drop 





database if exists 


Source, 
create 


database source; 


use 


source; 
-- 建立 客户 表 
create table 





customer ( 
customer number int not null 


auto increment primary key comment 





客户 编号 ， 主键 ' ， 
customer name varchar 


(50) comment 


' 客 户 名 称 '， 


customer street address varchar 
(50) comment 


EE 
customer zip code int comment 


' 邮编"， 


customer city varchar 
(30) comment 


PEST", 


customer_state varchar 
(2) comment 


"所 在 省 份 


, 





-- 建立 产品 表 
create table 


product ( 
product code int not null 


auto increment primary key comment 





产品 编码 ， 主 键 '， 
product name varchar 


(30) comment 


PAE, 
product_category varchar 


(30) comment 








-- 建立 销售 订单 表 
create table 


sales order ( 
order number int not null 


auto increment primary key comment 





Was, 主键 ' ， 
customer number int comment 


' 客 户 编号 '， 


product_code int comment 


产品 编码 ' ， 
order date datetime comment 


' 订 单 日 期 '， 
entry_date datetime comment 


Sic lb 
order amount decimal 


(10 , 2 ) comment 





' 销售 金额 '， 
foreign key 


(customer number) 
references 


customer (customer number) 
on delete cascade on update cascade 


foreign key 


(product code) 
references 


product (product code) 
on delete cascade on update cascade 


); 
2. 执行 下 面 的 SQL 语句 生成 源 库 测 试 数据 


USe 


source; 
-- 生成 客户 表 测 斌 数据 


insert into 


customer 

(customer name,customer street address,customer zip code, 
customer city,customer state) 
values 


('really large customers', '7500 louise dr.',17050, 'mechanicsbu 
('small stores', '2500 woodland st.',17055, 'pittsburgh','pa'), 
('medium retailers','1111 ritter rd.',17055,'pittsburgh','pa'), 
('good companies','9500 scott st.',17050, 'mechanicsburg','pa'), 
('wonderful shops','3333 rossmoyne rd.',17050, 'mechanicsburg','p 
('loyal clients','7070 ritter rd.',17055, 'pittsburgh','pa'), 
('distinguished partners','9999 scott st.',17050, 'mechanicsburg' 


-- 生成 产品 表 测试 数据 


insert into 


product (product name,product category) 
values 


('hard disk drive', 'storage'), 
('floppy drive', 'storage'), 
('lcd panel', 'monitor'); 


-- 生成 100 条 销售 订单 表 测试 数据 


drop procedure if exists 





generate sales order data; 
delimiter // 
create procedure 


generate sales order data() 
begin 


drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 





2x2) 
set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 


(1000 + rand() 


* 9000); 


insert 


into temp sales order data values 


(Qi, @customer_number, @product_code, @order_date, @order_date, @amou 
set 


@i:=@i+1; 
end while 


truncate table 


sales order; 
insert into 


sales order 
select null 


,Ccustomer number,product code,order date,entry date,order amount 


temp sales order data order by 


order date; 
commit 


end 


// 
delimiter ; 


call 


generate_sales_order_data(); 


Vi 8j: 








e 客户 表 和 产品 表 的 测试 数据 取 目 Dimensionayl 


Data Warehousing 


with MySQL 一 书 。 

e 创建 了 一 个 MySQL 存 储 过 程 生 成 100 条 销售 订单 测试 数据 。 为 了 
模拟 实际 订单 的 情况 ， 订 单 表 中 的 客户 编号、 产品 编号、 订单 时 
间 和 订单 金额 都 取 一 个 范围 内 的 随机 值 ， 订 单 时 间 与 登记 时 间 相 
同 。 因 为 订单 表 的 主键 是 自 增 的 ， 为 了 保持 主键 值 和 订单 时 间 字 
段 的 值 顺序 一 致 ， 引 入 了 一 个 名 为 temp_sales_order_data 的 表 ， 
存储 中 间 临 时 数据 。 在 后 面 章节 中 都 是 使 用 此 方案 生成 订单 测试 
数据 。 











3. 执行 下 面 的 HiveQL 语句 在 Hive 中 建立 RDS 库 表 





-- 建立 rds 数 据 库 
drop 


database if exists 


rds cascade 


/ 
create 


database rds; 


use 


rds; 
-- 建立 客户 过 渡 表 
create table 








customer ( 
customer number int comment 


'number', 
customer name varchar 


(30) comment 


'name', 
customer street address varchar 


(30) comment 


'address', 
customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 


POE 
customer state varchar 


(2) comment 


'state' 





n 
建立 产品 过 渡 表 





create table 
product ( 
product code int comment 
'code', 
product name varchar 


(30) comment 


'name', 
product category varchar 








(30) comment 
'category' 
); 
-- 建立 销售 订单 过 渡 表 





create table 
sales order ( 
order_number int comment 
'order number', 


customer number int comment 


'customer number', 


product code int comment 


'product code', 
order date timestamp comment 


'order date', 
entry date timestamp comment 


'entry date', 
order amount decimal 


(10 , 2 ) comment 


‘order amount ' 


); 
Vi 8j: 





。RDS 中 表 与 MySQL 里 的 源 表 完全 对 应 ， 其 字段 与 源 表 相同 。 

。 使 用 Hive 默 认 的 文件 格式 。 

。 HiveQL 脚 本 中 的 列 注释 没有 使 用 中 文 ， 这 是 因为 Hive 1.1.0 中 ， 
中 文 注 释 会 在 show create table 命 令 中 显示 乱码 ， 要 解决 这 个 问题 
需要 重新 编译 Hive 的 源码 ， 简 单 起 见 ， 这 里 都 使 用 了 英文 列 注 
释 。 关 于 1.1.0 中 的 这 个 bug， 可 参考 
https://issues.apache.org/jira/browse/HIVE-11837。 示 例 数 据 中 没有 
使 用 中 文 ， 也 有 类 似 的 原因 。 





4. 执行 下 面 的 HiveQL 语句 在 Hive 中 建立 TDS 库 表 


-- 建立 数据 仓库 数据 库 





drop 


database if exists 


dw cascade 


1 
create 


database dw; 


use 


dw; 
-- 建立 日 期 维度 表 
create table 





date dim ( 
date sk int comment 


'surrogate key', 
date date comment 


' date, yyyy-mm-dd', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 


) 


comment 


'date dimension table' 
row format 


delimited fields terminated by 


, 
stored as 


textfile; 


- -建立 客户 维度 表 


create table 





customer dim ( 
customer sk int comment 


'surrogate key', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 
customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 


OE yo, 
customer state varchar 


(2) comment 


'state', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 


clustered by 


(customer sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


-- 建立 产品 维度 表 
create table 





product dim ( 
product sk int comment 


'surrogate key', 
product code int comment 


'code', 
product name varchar 


(30) comment 


'name', 
product category varchar 


(30) comment 


'category', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 


) 
clustered by 
(product sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


-- 建立 订单 维度 表 
create table 





order dim ( 
order sk int comment 


'surrogate key', 
order number int comment 


'number', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 


) 
clustered by 
(order sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 











-- 建立 销售 订单 事实 表 
create table 


sales order fact ( 
order sk int comment 


'order surrogate key', 
customer sk int comment 


'customer surrogate key', 
product sk int comment 


'product surrogate key', 
order date sk int comment 


'date surrogate key', 
order amount decimal 


(10 , 2 ) comment 


‘order amount ' 


) 
clustered by 


(order sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
说 明 : 


。 按照 图 6-2 所 示 的 实体 关系 建立 多 维 数 据 仓 库 中 的 维度 表 和 事实 
表 。 

e 除 日 期 维度 表 外 ， 其 他 表 都 使 用 ORC 文 件 格式 ， 并 设置 表 属 性 文 
持 事 务 。 

。 日 期 维度 表 只 会 奶 加 数据 而 从 不 更 新 ， 所 以 使 用 以 逗号 作为 列 分 
隅 符 的 文本 文件 格式 。 

。 维度 表 里 然 使 用 了 代理 键 ， 但 不 能 将 它 设 置 为 主键 ， 在 数据 库 级 
也 不 能 确保 其 唯一 性 。Hive 中 并 没有 主键 、 外 键 、 唯 一 性 约束 、 
非 空 约束 这 些 关 系数 据 库 的 概念 。 
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日 期 维度 在 数据 仓库 中 是 一 个 特殊 角色 。 日 期 维度 包含 时 间 概念， 





而 时 间 是 最 重要 的 ， 因 为 数据 仓库 的 主要 功能 之 一 就 是 存储 历史 数据 ， 
所 以 每 个 数据 仓库 里 的 数据 都 有 一 个 时 间 特 征 。 装 载 日 期 数据 有 三 个 常 
用 方法 : 预 装载 、 每 日 装载 一 天 、 从 源 数据 装载 日 期 。 

在 三 种 方法 中 ， 预 装载 最 为 常见 也 最 容易 实现 ， 本 示例 就 采用 此 方 
法 ， 生 成 一 个 时 间 段 里 的 所 有 日 期 。 我 们 预 装载 21 年 的 日 期 维度 数据 ， 
从 2000 年 1 月 1 日 到 2020 年 12 月 31 日 。 使 用 这 个 方法 ， 在 数据 仓库 生命 周 
期 中 ， 只 需要 预 装 载 日 期 维度 一 次 。 预 装载 的 缺点 是 :提早 消耗 磁盘 空 
间 ( 这 点 空间 占用 通常 是 可 以 忽略 的 ) ; 可 能 不 需要 所 有 的 日 期 GAD 











EHN . 


在 数据 库 中 生成 日 期 维度 数据 很 简单 ， 因 为 数据 库 一 般 都 提供 了 丰 
富 的 日 期 时 间 函 数 ， 而 且 可 以 在 存储 过 程 的 循环 中 插入 数据 。 例 如 下 面 
的 MySQL 脚 本 可 以 用 于 生成 日 期 维度 数据 。 





-- 建立 日 期 维度 数据 生成 的 存储 过 程 
delimiter // 
drop procedure if exists 


pre populate date // 
create procedure 


pre populate date (in 


start dt date 


end dt date 


while 


start dt «- end dt do 





/ 
commit 


/ 
end 


// 
delimiter ; 


-- 生成 日 期 维度 数据 


Set 


foreign_key_checks=0; 
truncate table 


date_dim; 
call 


pre_populate_date('2000-01-01', '2020-12-31'); 
set 


foreign key checks-1; 


目前 Hive 中 只 能 写 HiveQL 语 句 ， 还 不 文 持 SQL 的 过 程 化 语言 编程 ， 
此 在 本 示例 中 我 们 编写 了 一 个 名 为 date_dim_generate.sh 的 shell 脚 本 文 
件 ， 它 从 命令 行 接收 起 始 日 期 和 终止 日 期 参数 ， 按 日 期 维度 表 的 定义 生 
成 期 间 的 日 期 数据 文本 文件 ， 最 后 将 生成 的 文本 文件 上 传 到 日 期 维度 表 
对 应 的 HDFS 目 录 下 ， 以 这 种 方式 生成 日 期 维度 表 的 数据 。 








date dim generate.sh XF Vj 440 F: 


#!/bin/bash 

date1="$1" 

date2="$2" 

tempdate- date -d "$datei" +%F` 

tempdateSec-' date -d "$date1" +%s` 

enddateSec= date -d "$date2" +%S 

min=1 

max= expr N( $enddateSec - $tempdateSec \) / \( 24 N* 60 \* 60 \ 
cat /dev/null > ./date_dim.csv 


while [ $min -le $max ] 
do 
month= date -d "$tempdate" +%m` 
month name-' date -d "$tempdate" +%B` 
quarter= echo $month | awk '(print int(($0-1)/3)+1}'° 
year- date -d "$tempdate" +%Y` 
echo ${min}","${tempdate}", "${month}", "${month_name}", "${quart 
>> ./date_dim.csv 
tempdate= date -d "+$min day $date1" +%F` 
tempdateSec- date -d "+$min day $date1" +%s` 
min= expr $min + 1° 
done 


hdfs dfs -put -f date_dim.csv /user/hive/warehouse/dw.db/date_di 





该 shell 文 件 在 生成 记录 前 先 会 清空 date_dim.csv 文 件 ， 并 且 在 癌 
HDFS 上 传 时 使 用 了 -f 参 数 ， 因 此 可 以 反复 执行 ， 即 实现 了 所 请 的 “ 夫 等 
操作 ”。 现 在 执行 下 面 的 shell 命 令 生成 从 2000 年 1 月 1 日 到 2020 年 12 月 31 
日 的 日 期 维度 表 数 据 。 


./date dim generate.sh 2000-01-01 2020-12-31 





至 此 ， 我 们 的 示例 数据 仓库 模型 搭建 完成 ， 后 面 章 市 将 实现 ETL。 
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(1) 使 用 一 个 简单 而 典型 的 销售 订单 示例 ， 建 立 数据 仓库 模型 。 


(2) Hive 和 常用 的 四 种 文件 格式 为 TEXTFILE、SEQUENCEFILE、 
RCFILE、ORCFILE， 其 中 只 有 ORCFILE 支 持 事 务 和 行 级 更 新 ， 因 此 是 
多 维 数据 仓库 Hive 存 储 类 型 的 唯一 选择 。 

(3) 配置 Hive 支 持 事 务 需 要 在 hive-site.xml 文 件 中 增加 相关 属性 ， 
还 要 问 3 个 Hive 元 数据 表 预 先 插入 数据 。 

(4) Hive 中 的 表 分 为 管理 表 和 外 部 表 ， 两 者 都 可 以 进行 分 区 。 

(5) load 与 l0ad overwrite 语 句 用 来 同 Hive 表 装载 数据 ， 前 者 人 奶 加 ， 
nA Bit. 

(6) 分 区 表 比 非 分 区 表 多 了 一 种 alter table ... add partition 的 数据 装 

(7) 对 于 外 部 表 ， 除 了 在 删除 表 时 只 删除 元 数据 而 保留 表 数 据 目 
录 外 ， 其 数据 装载 行为 与 内 部 表 相 同 。 

8) 本 示例 模型 在 MySQL 中 建立 源 库 表 ， 在 Hive 中 建 六 RDS 和 
TDS 库 表 。 

(9) Hive 还 不 支持 SQL 的 过 程 化 语言 编程 ， 因 此 编写 shell 脚 本 预 
装载 日 期 维度 表 数 据 。 





第 7 章 


«A HA > 


本 章 将 介绍 如 何 利用 Hadoop 提 供 的 工具 实现 数据 仓库 中 的 数据 抽 
取 ， 即 ETL 过 程 中 的 Extract 部 分 。 


首先 我 们 会 介绍 逻辑 数据 映射 的 概念 ， 它 是 实现 ETL 系 统 的 基础 。 

然后 我 们 会 用 多 个 示例 说 明 如 何 捕获 变化 的 数据 ， 实 现 增 量 数据 抽取 ， 

以 及 将 数据 库 中 的 数据 导出 成 文本 文件 的 各 种 技术 。 业 务 系统 可 能 同时 
使 用 多 种 数据 库 系 统 ， 这 些 系统 在 物理 上 彼此 独立 ， 在 逻辑 上 又 互相 联 
系 。 如 果 能 够 在 一 种 数据 库 中 访问 其 他 数据 库 ， 将 会 给 数据 集成 带 来 极 
大 的 便利 。 这 种 情况 下 惑 会 用 到 本 章 介 绍 的 分 布 式 碍 询 技 术 。Hadoop 生 
态 圈 中 的 Sqoop 工 具 可 以 直接 在 关系 数据 库 和 HDFS 或 Hive 之 间 互 导数 

据 。 在 本 章 最 后 我 们 使 用 Sqoop 实 现 销售 订单 示例 的 数据 抽取 过 程 ， 将 
MySQL 中 的 源 数据 抽取 到 Hive 的 rds 数 据 库 中 。 
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设计 ETL 过 程 的 首要 步骤 是 建立 一 个 有 效 的 逻辑 数据 映射 。 逻 辑 数 
据 映 射 有 时 也 叫做 血统 报告 ， 是 整个 ETL 过 程 实现 的 基础 。 

简单 次 逻辑 数据 映射 束 是 指 源 系 统 中 的 对 象 和 目标 数据 仓库 中 的 对 
象 之 间 的 对 应 关系 ， 通 常用 一 个 表 或 者 电子 表格 的 形式 来 表示 。 它 包括 
以 下 特定 的 组 成 部 分 : 


e 目标 组 件 。 包 括 数据 仓库 中 出 现 的 物理 表 名 称 、 表 类 型 〈 事 实 
表 、 维 度 表 和 子 维度 表 等 ) 、 列 名 称 、 列 的 数据 类 型 〈 字 符 串 、 


数字 等 ) 和 SCD 类 型 。 对 于 维度 表 ，SCD 表 示 是 类 型 1、 类 型 2 或 
者 类 型 3 的 缓慢 变化 维度 。 这 个 指标 对 一 个 维度 表 中 的 不 同 列 可 
以 是 不 同 的 。 比 如 在 客户 维度 中 ， 客 户 地 址 可 能 属于 类 型 2( 保 
留 历史 信息 ) ， 而 姓名 可 能 属于 类 型 1 GE . XOEBSCD2S7U 
将 在 下 一 节 展 开 详 细 探 讨 。 
源 系统 组 件 。 包 括 数据 源 名 称 、 源 表 名 、 源 列 名 及 其 数据 类 型 。 
数据 源 名 称 可 以 是 源 数据 所 在 的 数据 库 实例 的 名 称 ， 它 通常 是 指 
连接 源 数据 库 所 需 的 连接 字符 串 。 如 果 数 据 出 现在 文件 系统 中 ， 
数据 源 名 称 也 可 以 是 一 个 文件 名 。 这 时 还 需要 包含 这 个 文件 的 完 
整 路 径 。 源 表 名 指 的 是 源 数 据 所 在 表 的 名 称 。 很 多 时 候 源 数据 库 
中 有 很 多 表 ， 但 只 需 列 出 与 生成 目标 数据 仓库 表 相 关 的 所 有 表 即 
可 。 源 列 名 是 生成 目标 表 所 需 的 相关 列 。 只 需 简 单列 出 装载 目标 
列 需 要 的 所 有 列 。 源 列 与 目标 列 之 间 的 关联 在 转换 部 分 记录 。 
转换 。 源 数据 与 期 望 的 目标 数据 仓库 格式 对 应 所 需 的 详细 操作 。 
这 部 分 通常 用 伪 代 人 码 来 编写 。 逻 辑 数据 映射 中 的 列 有 时 是 组 合 
的 。 比 如 ， 源 数据 库 、 表 名 称 和 列 名 称 可 能 被 组 合 在 一 个 源 列 
中 。 这 个 组 合 列 的 信息 可 以 用 圆 点 来 分 隔 ， 如 
ORDERS.STATUS.STATUS_CODE。 有 了 时候 转换 在 逻辑 数据 映 
射 中 是 空 的 ， 这 意味 着 不 需要 进行 转换 ， 数 据 就 可 以 直接 装载 到 
数据 仓库 中 。 逻 辑 数据 映射 文档 的 内 容 提 供 了 进行 有 效 ETL 过 程 
的 所 有 关键 信息 。 

逻辑 数据 映射 中 的 某 些 部 分 看 起 来 很 简单 并 且 很 直接 。 然 而 ， 当 仔 
细 研 究 的 时 候 ， 该 文档 就 会 揭示 许多 ETL 开 发 者 可 能 忽略 的 隐藏 需求 。 
这 个 文档 的 主要 目标 是 为 ETL 开 发 者 提供 一 个 清晰 的 蓝图 ， 精 确 地 说 明 
可 以 从 ETL 过 程 获得 什么 。 逻 辑 数据 映射 表 必须 清晰 地 描述 转换 过 程 中 
包含 的 动作 流程 ， 不 能 有 任何 存疑 的 地 方 。 


逻辑 数据 映射 为 ETL 开 发 人 员 传 送 更 为 清晰 的 数据 流 信 息 。 映 射 关 
系 包括 有 关 数 据 在 存储 到 数据 仓库 前 所 经 历 的 各 种 变化 信息 ， 这 对 于 开 


























发 过 程 中 对 数据 的 追踪 审查 非常 重要 。 把 ETL 过 程 的 信息 归纳 为 元 数 
据 ， 将 数据 源 结构 、 目 标 结构 、 数 据 转 换 规则 、 映 射 关 系 、 数 据 的 上 下 
文 等 元 数据 保存 在 文档 中 ， 为 开发 ETL 系 统 提供 了 很 好 的 参考 信息 。 追 
踪 数据 来 源 与 转换 信息 ， 有 助 于 设计 人 员 理 解 系统 环境 变化 所 造成 的 影 
Wi. 逻辑 数据 映射 中 还 会 标识 一 些 需要 引起 重视 的 操作 ， 比 如 隐 式 数据 
转换 。 在 把 源 数 据 类 型 转换 成 目标 数据 类 型 时 ， 可 能 会 因为 字符 集 或 其 
他 的 原因 引起 字 节 数量 增 减 ， 比 如 从 utf8 变 为 latinl 时 ， 字 段 数据 类 型 定 
义 的 长 度 也 会 发 生 相 应 的 变化 ， 并 且 有 时 这 种 变化 是 隐 含 的 。 在 这 种 情 
况 下 可 能 会 丢失 数据 。 为 了 提醒 开发 人 员 注意 ， 应 该 在 文档 中 标记 隐 式 
数据 转换 。 

一 般 按 如 下 步 又 建立 逻辑 数据 映射 。 

CL) 识别 数 据 源 。 

通常 源 系统 的 数据 模型 仅仅 指出 了 主要 数据 源 。 如 果 开发 团队 继续 
各 下 挖掘， 会 发 现 每 一 个 可 能 用 到 的 数据 源 。 然 而 标识 数据 源 有 时 会 非 
常 复杂 ， 如 有 很 多 是 遗留 系统 ， 同 一 含义 的 数据 经 过 多 次 选 代 形成 很 多 
份 ， 它 们 对 应 的 数据 库 也 可 能 有 各 种 各 样 的 名 字 。 对 此 ， 一 种 较为 可 千 
的 解决 方案 是 使 用 一 个 中 心 知识 库 管理 所 有 的 数据 源 。 

(2) 收集 源 系统 文档 。 

(3) 建立 源 系 统 跟踪 报告 。 


报告 应 该 显示 每 个 数据 源 的 负责 人 、 生 成 者 和 使 用 者 。 它 还 包含 很 
多 数据 源 的 特性 : 所属 主题 域 、 接 口 名称 、 业 务 名 称 、 业 务 属 主 、 技 术 
属 主 、 数 据 库 管理 系统 、 生 产 服务 器 、 数 据 大 小 、 数 据 复杂 性 、 每 天 事 
务 数 、 优 先 级 、 日 党 使 用 数量 、 部 门 或 公司 使 用 情况 、 系 统 平台 和 其 他 
说 明 。 

(4) 建立 目标 数据 仓库 实体 关系 图 。 

实体 关系 图 显示 两 个 或 者 更 多 的 实体 相互 之 间 的 关系 。 关 系 通过 实 


























体 之 间 的 连 线 表示 。 实 体 关 系 图 的 内 容 除 了 必需 的 实体 及 其 属性 ， 还 应 
该 包括 : 


每 个 实体 的 唯一 标识 。 


。 每 个 属性 的 数据 类 型 。 
。 实体 之 间 的 关系 。 这 是 一 个 非常 重要 的 属性 ， 会 影响 数据 抽取 的 
顺序 。 


(5) 建立 模型 映射 。 
从 源 系 统 到 目标 数据 仓库 模型 之 间 的 映射 类 型 有 : 





。 一 对 一 。 一 个 源 系 统 的 数据 实体 只 对 应 一 个 目标 模型 的 数据 实 
体 。 如 果 源 类 型 与 目标 类 型 一 致 ， 则 直接 映射 。 如 果 两 者 间 类 型 
不 一 样 ， 则 必须 经 过 转换 再 映射 。 

一 对 多 。 一 个 源 系统 的 数据 实体 对 应 多 个 目标 模型 的 数据 实体 ， 
古 将 一 个 源 实体 拆 分 为 多 个 目标 实体 的 情况 。 

一 对 零 。 源 系统 的 数据 实体 没有 与 目标 模型 的 数据 实体 对 应 ， 它 
不 在 处 理 的 计划 范围 之 内 。 

零 对 一 。 一 个 目标 模型 的 数据 实体 没有 与 任何 一 个 源 数据 实体 对 
应 起 来 。 例 如 典型 的 时 间 维 度 表 等 。 

多 对 一 。 多 个 源 系统 的 数据 实体 只 对 应 一 个 目标 模型 的 数据 实 
体 。 

多 对 多 。 多 个 源 系统 的 数据 实体 对 应 多 个 目标 模型 的 数据 实体 。 


(6) 建立 属性 映射 。 














一 对 一 。 源 实体 的 一 个 数据 属性 列 只 对 应 目标 实体 的 一 个 数据 属 
性 列 。 如 有 果 源 类 型 与 目标 类 型 一 致 ， 则 直接 映射 。 如 采 两 者 间 类 
型 不 一 样 ， 则 必须 经 过 转换 映射 。 

一 对 多 。 源 实体 的 一 个 数据 属性 列 对 应 目标 实体 的 多 个 数据 属性 


列 ， 是 将 一 个 源 属性 列 拆 分 为 多 个 目标 属性 列 的 情况 。 

一 对 零 。 源 实体 的 数据 属性 列 没有 与 目标 实体 的 数据 属性 列 对 
应 ， 它 不 在 处 理 的 计划 范围 之 内 。 

e 和 零 对 一 。 一 个 目标 实体 的 数据 属性 列 没有 与 任何 一 个 源 数 据 属性 
列 对 应 起 来 。 例 如 典型 的 维 表 和 事实 表 中 的 代理 健 ，SCD 的 版 本 
号 、 起 始 时 间 、 过 期 时 间 等 。 

多 对 一 。 源 实体 的 多 个 数据 属性 列 只 对 应 目标 实体 的 一 个 数据 属 


性 列 。 
e 多 对 多 。 源 实体 的 多 个 数据 属性 列 对 应 目标 实体 的 多 个 数据 属性 
列 。 





按照 上 述 步骤 建立 了 一 个 逻辑 数据 映射 后 ， 只 是 有 了 数据 结构 的 模 
型 ， 我 们 还 必须 对 数据 内 容 本 身 进 行 分析 ， 并 收集 所 有 的 业务 规则 。 例 
如 ， 是 否 存在 非 日 期 类 型 的 列 中 的 存储 日 期 值 的 情况 ， 或 者 数据 是 否 
许 为 空 。 要 检查 源 数据 库 中 每 一 个 外 键 是 否 有 NULL 值 。 如 果 存 在 
NULL 值 ， 必 须 对 表 进 行 外 关联 。 如 果 NULL 不 是 外 键 而 是 一 个 普通 
列 ， 那 么 必须 有 一 个 处 理 NULL 数 据 的 业务 规则 。 作 为 一 个 设计 原则 ， 
只 要 人 允许， 数据 仓库 加 载 数据 一 定 要 用 默认 值 代 奉 NULL。 


逻辑 数据 映 财 是 建 六 ETL 物 理工 作 计 划 的 指南 。 它 明确 了 源 数据 组 
件 和 目标 组 件 ， 并 标识 了 它们 之 间 的 对 应 关系 。 逻 辑 数 据 映 射 还 可 能 是 
一 个 提交 给 数据 仓库 最 终 用 户 的 交付 物 。 


7.2 ”数据 抽取 方式 


抽取 数据 是 EIL 处 理 过 程 的 第 一 个 步骤 ， 也 是 数据 仓库 中 最 重要 和 
最 具有 挑战 性 的 部 分 ， 适 当 的 数据 抽取 是 成 功 建 并 数据 仓库 的 关键 。 

从 源 抽取 数据 导入 数据 仓库 或 过 渡 区 有 两 种 方式 ， 可 以 从 源 把 数据 
MUR HK Cit) ， 也 可 以 请 求 源 把 数据 发 送 〈 推 ) 到 数据 仓库 。 影 响 选 





择 数据 抽取 方式 的 一 个 重要 因 系 是 操作 型 系统 的 可 用 性 和 数据 量 ， 这 是 
抽取 整个 数据 还 是 仅仅 抽取 自 最 后 一 次 抽取 以 来 的 变化 数据 的 基础 。 我 
们 考虑 以 下 两 个 问题 : 





e 需要 抽取 哪 部 分 源 数 据 加 载 到 数据 仓库 ? 有 两 种 可 选 方式 ， 完 全 
抽取 和 变化 数据 捕获 。 

。 数据 抽取 的 方 回 是 什么 ?有 两 种 方式 ， 拉 模式 ， 即 数据 仓库 主动 
去 源 系统 拉 取 数据 ， 推 模式 ， 由 源 系 统 将 目 己 的 数据 推送 给 数据 


仓库 。 


对 于 第 二 个 问题 来 说 ， 通 常 要 改变 或 增加 操作 型 业务 系统 的 功能 是 
非常 困难 的 ， 这 种 困难 不 仅 是 技术 上 的 ， 还 有 来 自 于 业务 系统 用 户 及 其 
开发 者 的 阻力 。 理 论 上 讲 ， 数 据 仓库 不 应 该 要 求 对 源 系统 做 任何 改造 ， 
实际 上 也 很 少 由 源 系统 推 数 据 给 数据 仓库 。 因 此 对 这 个 问题 的 答案 比较 
明确 ， 大 都 采用 拉 数 据 模 式 。 下 面 我 们 着 重 讨论 第 一 个 问题 。 

如 末 数 据 量 很 小 并 且 易 处 理 ， 一 般 来 说 采取 完全 源 数据 抽取 ， 就 是 
将 所 有 的 文件 记录 或 所 有 的 数据 库 表 数据 抽取 人 至 数据 仓库 。 这 种 方式 适 
合 基 础 编码 类 型 的 源 数据 ， 比 如 邮政 编码 、 学 历 、 民 族 等 。 基 础 编码 型 
源 数 据 通 利 是 维度 表 的 数据 来 源 。 如 果 源 数据 量 很 大 ， 抽 取 全 部 数据 是 
不 可 行 的 ， 那 么 只 能 抽取 变化 的 源 数据 ， 即 最 后 一 次 抽取 以 来 发 生 了 变 
化 的 数据 。 这 种 数据 抽取 模式 称 为 变化 数据 捕获 ， 简 称 CDC， 常 被 用 于 
抽取 操作 型 系统 的 事务 数据 ， 比 如 销售 订单 、 用 户 注册 ， 或 各 种 类 型 的 
应 用 日 志 记录 等 。 


CDC 大 体 可 以 分 为 两 种 ， 一 种 是 侵入 式 的 ， 另 一 种 是 非 侵 入 式 的 。 
所 谓 侵入 式 的 是 指 CDC 操 作 会 给 源 系统 带 来 性 能 的 影响 。 只 要 CDC 操 作 
以 任何 一 种 方式 对 源 库 执 行 了 SQL 语句 ， 就 可 以 认为 是 侵入 式 的 CDC。 
常用 的 四 种 CDC 方 法 是 : 基于 时 间 惟 的 CDC、 基 于 触发 器 的 CDC、 基 于 
快照 的 CDC、 基 于 日 志 的 CDC， 其 中 前 三 种 是 侵入 性 的 。 表 7-1 总 结 了 4 


























种 CDC 方 案 的 特点 。 




















表 7-1 四 种 CDC 方 案 比较 




















能 区 分 插入 /更 新 是 
周期 内 ， 检 测 到 多 次 更 新 是 是 
能 检测 到 删除 & 是 d 是 
不 具有 侵入 性 fi 5 in 是 
支持 实时 fi 是 是 
不 依赖 数据 库 是 fi 是 5 

















1. 基于 时 间 惟 的 CDC 


基于 源 数据 的 CDC 要 求 源 数据 里 有 相关 的 属性 列 ， 抽 取 过 程 可 以 利 
用 这 些 属性 列 来 判断 哪些 数据 是 增 量 数据 。 最 常见 的 属性 列 有 以 下 两 
种 。 








e WEER: 这 种 方法 至 少 需要 一 个 更 新 时 间 惟 ， 但 最 好 有 两 个 ， 一 
个 插入 时 间 戳 ， 表 示 记 录 何 时 创建 ， 一 个 更 新 时 间 惟 ， 表 示 记 录 
最 后 一 次 更 新 的 时 间 。 
e 序列 : 大 多 数 数据 库 系 统 都 提供 上 自 增 功能 。 如 果 数 据 库 表 列 被 定 
义 成 自 增 的 ， 束 可 以 很 容易 地 根据 该 列 识别 出 新 插入 的 数据 。 
这 种 方法 的 实现 较为 简单 ， 假 设 表 t1 中 有 一 个 时 间 惟 字段 
last_inserted，t2 表 中 有 一 个 自 增 序列 字段 ia， 则 下 面 SQL 语 句 的 查询 结 
果 就 是 新 增 的 数据 ， 其 中 {last_ load_time}y 和 {last_ load id} 分 别 表 示 ETL 
系统 中 记录 的 最 后 一 次 数据 装载 时 间 和 最 大 自 增 序列 号 。 














select * from 


ti where 


last inserted > [last load time); 
select * from 


t2 where 


id » (last load id); 


通常 需要 建立 一 个 额外 的 数据 库 表 存储 上 一 次 更 新 时 间或 上 一 次 抽 
取 的 最 后 一 个 序列 号 。 在 实践 中 ， 一 般 是 在 一 个 独立 的 模式 下 或 在 数据 
过 疲 区 里 创建 这 个 参数 表 。 基 于 时 间 戳 和 目 增 序列 的 方法 是 CDC 最 简单 
的 实现 方式 ， 也 是 最 常用 的 方法 ， 但 它 的 缺点 也 很 明显 ， 主 要 如 下 : 








。 不 能 区 分 插入 和 更 新 操作 。 只 有 当 源 系统 包含 了 插入 时 间 戳 和 更 
新 时 间 恰 两 个 字段 ， 才 能 区 别 插入 和 更 新 ， 人 否则 不 能 区 分 。 

。 不 能 记录 删除 记录 的 操作 。 不 能 捕获 到 删除 操作 ， 除 非 是 逻辑 删 
除 ， 即 记录 没有 被 真 的 删除 ， 只 是 做 了 逻辑 上 的 删除 标志 。 

。 无 法 识别 多 次 更 新 。 如 果 在 一 次 同步 周期 内 ， 数 据 被 更 新 了 多 
次 ， 只 能 同步 最 后 一 次 更 新 操作 ， 中 间 的 更 行 操作 都 丢失 了 。 

。 不 具有 实时 能 力 。 时 间 戳 和 基于 序列 的 数据 抽取 一 般 适 用 于 批量 
操作 ， 不 适合 于 实时 场景 下 的 数据 抽取 。 


这 种 方法 是 具有 侵入 性 的 ， 如 果 操 作 型 系统 中 没有 时 间 惟 或 时 间 惟 
信息 是 不 可 用 的 ， 那 么 不 得 不 通过 修改 源 系统 把 时 间 戳 包含 进去 ， 首 先 
要 求 修改 操作 型 系统 的 表 包 含 一 个 新 的 时 间 戳 列 ， 然 后 建立 一 个 触发 
器 ， 在 修改 一 行 时 更 新 时 间 戳 列 的 值 。 在 实施 这 些 操作 前 必须 被 源 系 统 
的 拥有 者 所 接受 ， 并 且 要 仔细 评估 对 源 系 统 产 生 的 影响 。 下 面 是 一 个 
Oracle 数 据 库 的 例子 。 当 t 表 上 执行 了 insert 或 update 操 作 时 ， 触 发 器 会 
将 last_updated 字 段 更 新 为 当前 系统 时 间 。 


alter table 














2. 基于 触发 器 的 CDC 


当 执 行 INSERT、UPDATE、DELETE 这 些 SQL 语句 时 ， 可 以 激活 数 
据 库 里 的 触发 器 ， 并 执行 一 些 动作 ， 束 是 说 触发 器 可 以 用 来 捕获 变更 的 
数据 并 把 数据 保存 到 中 间 临 时 表 里 。 然 后 这 些 变更 的 数据 再 从 临时 表 中 
取出 ， 被 抽取 到 数据 仓库 的 过 渡 区 里 。 但 在 大 多 数 场合 下 ， 不 允许 向 操 
作 型 数据 库 里 添加 触发 器 (业务 数据 库 的 变动 通常 都 异常 慎重 ) ， 而 且 
这 种 方法 会 降低 系统 的 性 能 ， 所 以 此 方法 用 的 并 不 是 很 多 。 


作为 直接 在 源 数 据 库 上 建立 触发 器 的 替代 方案 ， 可 以 使 用 源 数据 库 
的 复制 功能 ， 把 源 数据 库 上 的 数据 复制 到 备 库 上 ， 在 备 库 上 建立 触发 器 
以 提供 CDC 功 能 。 尽 管 这 种 方法 看 上 去 过 程 见 余 ， 且 需要 额外 的 存储 空 
间 ， 但 实际 上 这 种 方法 非常 有 效 ， 而 且 没 有 侵入 性 。 复 制 是 大 部 分 数据 
库 系 统 的 标准 功能 ， 如 MySQL、Oracle 和 SQL Server 等 都 有 各 自 的 数据 
复制 方案 。 


一 个 类 似 于 内 部 触发 器 的 例子 是 Oracle 的 物化 视图 日 志 。 这 种 日 志 
被 物化 视图 用 来 识别 改变 的 数据 ， 并 且 这 种 日 志 对 象 能 够 被 最 终 用 户 访 
问 。 一 个 物化 视图 日 志 可 以 建立 在 每 一 个 需要 捕获 变化 数据 的 源 表 上 。 
之 后 任何 时 间 在 源 表 上 对 任何 数据 行 做 修改 时 ， 都 有 一 条 记录 插入 到 物 
化 视图 日 志 中 表示 这 一 行 被 修改 了 。 如 果 想 使 用 基于 触发 莫 的 CDC 机 
制 ， 并 且 源 数据 库 是 Oracle， 这 种 物化 视图 日 志方 案 是 很 方便 的 。 物 化 
视图 日 志 依 赖 于 触发 器 ， 但 是 它们 提供 了 一 个 益处 是 ， 建 立 和 维护 这 个 
变化 数据 捕获 系统 已 经 由 Oracle 目 动 管理 了 。 我 们 甚至 可 以 在 物化 视图 
上 建立 目 己 的 触发 希 ， 每 次 物化 视图 刷新 时 ， 触 发 右 基 于 刷新 时 间 点 的 
物化 视图 日 志 归 并 结果 ， 在 一 些 场景 下 (只 要 记录 两 次 刷新 时 间 扣 数据 












































的 差异 ， 不 需要 记录 两 次 刷新 之 间 的 历史 变化 ) 可 以 简化 应 用 处 理 。 下 
面 是 一 个 Oracle 物 化 视图 的 例子 。 每 条 数据 的 变化 可 以 查询 物化 视图 日 
志 表 mlog$_tbl1， 两 个 刷新 时 间 点 之 间 的 数据 差异 ， 可 以 查询 

mv _tbll_tri 表 。 











-- 建立 mv 测试 表 
create table 





tbli(a number 


,D varchar2 


(20)); 
create unique index 


tbli pk on 


tbli (a); 
alter table 


tbli add 


(constraint 


tbli pl primary key 


(a)); 














-- 建 并 mv 日 志 ， 单 一 表 聚 合 视图 的 快速 刷新 需要 指定 ijncluding new values 4J 
create 





materialized view log on 


tbli including new values 


/ 
-- 建立 mv 
create 





materialized view 


mv tbli build immediate 


refresh fast 
start with to date 


('2013-06-01 08:00:00', 'yyyy-mm-dd hh24:mi:ss') 
next sysdate 


+ 1/24 
as select * from 


tb11; 
-- 建 并 trigger 测 试 表 
create table 





mv tbli tri (a number 


,D varchar 


(20),c varchar 


(20)); 
-- &&v.trigger 
create or replace trigger 





tri mv 
after delete or insert or update 


on 


mv tbl1i 


referencing new as new old as old 


for each row 


begin 


case 








tri mv; 


/ 
-- 对 表 tb11 进 行 一 系列 增删 改 操 作 





- 手工 刷新 mv 


exec 


dbms mview.refresh('mv tbl1'); 
- 查看 物化 视图 日 志 


select * from 


mlog$ tbl1; 
- 检查 trigger 测 试 表 
select * from 


mv tbli1 tri; 


3. 基于 快照 的 CDC 


如 果 没 有 时 间 戳 ， 也 不 允许 使 用 触发 器 ， 隐 要 使 用 快照 表 了 了 。 可 以 
通过 比较 源 表 和 快照 表 来 获得 数据 变化 。 快 照 就 是 一 次 性 抽取 源 系统 中 
的 全 部 数据 ， 把 这 些 数据 装载 到 数据 仓库 的 过 渡 区 中 。 下 次 需要 同步 
时 ， 再 从 源 系 统 中 抽取 全 部 数据 ， 并 把 这 些 全 部 数据 也 放 到 数据 仓库 的 
过 流 区 中 ， 作 为 这 个 表 的 第 二 个 版 本 ， 然 后 再 比较 这 两 个 版 本 的 数据 ， 
从 而 找到 变化 。 


有 多 个 方法 可 以 获得 这 两 个 版 本 数据 的 差异 。 假 设 表 有 两 个 列 id 和 








name，id 是 主键 列 。 该 表 的 第 一 、 第 二 个 版 本 的 快照 表 名 为 
snapshot 1. snapshot 2。 下 面 的 SQL 语句 在 主键 id 列 上 做 全 外 链接 ， 并 
根据 主键 比较 的 结果 增加 一 个 标志 字段 ，I 表 示 新 增 ，U 表 示 更 新 ，D 代 
表 删 除 ，N 代 表 没 有 变化 。 外 层 得 询 过 滤 掉 没有 变化 的 记录 。 





select * from 
(select case when t2.id is null then 'D' 
when t1.id is null then 'I' 
when ti.name <> t2.name then 'U' 
else 'N' 
end as flag, 
case when t2.id is null then ti.id else t2.id end as id 
t2.name 
from snapshot 1 t1 full outer join snapshot 2 t2 on ti.id = t2 
where flag <> 'N'; 


当然 ， 这 样 的 SQL 语句 需要 数据 库 文 持 全 外 链接 ， 对 于 MySQL 这 样 
不 文 持 全 外 链接 的 数据 库 ， 可 以 使 用 类 似 下 面 的 SQL 语句 : 
select 
'U' as 
flag, t2.id as 


id, t2.name as 


name 
from 


snapshot 1 t1 inner join 











基于 快照 的 CDC 可 以 检测 到 插入 、 更 新 和 删除 的 数据 ， 这 是 相对 于 
基于 时 间 惟 的 CDC 方 案 的 优点 。 它 的 缺点 是 需要 大 量 的 存储 空间 来 保存 
快照 。 男 外 ， 当 表 很 大 时 ， 这 种 查询 会 有 比较 严重 的 性 能 问题 。 








4. 基于 日 志 的 CDC 





最 复杂 的 和 最 没有 侵入 性 的 CDC 方 法 是 基于 日 志 的 方式 。 数 据 库 会 
把 每 个 插入 、 更 新 、 删 除 操作 记录 到 日 志 里 。 如 使 用 MYSQL 数据 库 ， 
只 要 在 数据 库 服务 器 中 局 用 二 进 制 日 志 《〈 设 置 1og_bin 服 务 髓 系统 变 
量 ) ， 之 后 就 可 以 实时 从 数据 库 日 志 中 读 取 到 所 有 数据 库 写 操作 ， 并 使 
用 这 些 操作 来 更 新 数据 仓库 中 的 数据 。 这 种 方式 需要 把 二 进 制 日 志 转 为 
可 以 理解 的 格式 ， 然 后 再 把 里 面 的 操作 按照 顺序 读 取 出 来 。 


MySQL 提 供 了 一 个 叫做 mysqlbinlog 的 日 志 读 取 工 具 。 这 个 工具 可 

以 把 二 进 制 的 日 志 格 式 转换 为 可 读 的 格式 ， 然 后 就 可 以 把 这 种 格式 的 输 
出 保存 到 文本 文件 里 ， 或 者 直接 把 这 种 格式 的 日 志 应 用 到 MySQL 客 户 
端 用 于 数据 还 原 操 作 。mysqlbinlog 工 具有 很 多 命令 行 参数 ， 其 中 最 重要 
的 一 组 参数 可 以 设置 开始 / 截止 时 间 惟 ， 这 样 能 够 从 日 志 里 截取 一 段 时 
闻 的 日 志 。 另 外 ， 日 志 里 的 每 个 日 志 项 都 有 一 个 序列 号 ， 也 可 以 用 来 做 
偏 移 操作 。MySQL 的 日 志 提供 了 上 述 两 种 方式 来 防止 CDC 过 程 发 生 重 
复 或 丢失 数据 的 情况 。 下 面 是 使 用 mysqlbinlog 的 两 个 例子 。 
mysqlbinlog --start-position-120 jbms binlog.000002 | mysql -u r 


mysqlbinlog --start-date="2011-02-27 13:10:12" --stop-date="2011 
jbms binlog.000002 > temp/002.txt 














第 一 条 命令 将 jbpms_binlog.000002 文 件 中 从 120 偏 移 量 以 后 的 操作 应 
用 到 一 个 MySQL 数 据 库 中 。 第 二 条 命令 将 jbms_binlog.000002 文 件 中 一 
段 时 间 的 操作 格式 化 输出 到 一 个 文本 文件 中 。 


其 他 数据 库 也 有 类 似 的 方法 ， 下 面 再 来 看 一 个 使 用 Oracle 日 志 分 析 
的 例子 。 假 设 有 个 项 目 提 出 的 需求 是 这 样 的 : 部 普 两 个 相同 的 Oracle 数 
据 库 A、B， 两 个 库 之 间 没 有 网 络 连接 ， 要 定期 把 A 库 里 的 数据 复制 到 B 
feo BER: 第 一 应 用 程序 不 做 修改 。 第 二 实现 增 量 数据 更 新 ， 并 且 不 多 
许 重 复数 据 导 入 。 


分 析 : Oradle 提 供 了 DBMS_LOGMNR 系 统 包 可 以 分 析 归 档 日 志 。 
我 们 只 要 将 A 库 的 归档 日 志文 件 通 过 离线 介质 复制 到 B 库 中 ， 再 在 B 库 上 
使 用 DBMS_LOGMNR 人 解析 归档 日 志 ， 最 后 将 格式 化 后 的 输出 应 用 于 B 
库 。 使 用 DBMS_LOGMNR 分 析 归 档 日 志 并 redo 变 化 的 方案 如 下 : 


(1) A 库 上 线 前 数据 库 需 要 局 用 归档 日 志 。 


(2) 每 次 同步 数据 时 对 A 库 先 执行 一 次 日 志 切 换 ， 然 后 复制 归档 
日 志文 件 到 B 库 ， 复 制 后 删除 A 库 的 归档 日 志 。 


(3) 在 B 库 上 使 用 DBMS_LOGMNR 分 析 归 档 日 志文 件 并 重 做 变 
化 。 


因为 网 不 通 ， 手 工 复制 文件 的 工作 不 可 避免 ， 所 以 可 以 认为 上 述 步 
又 均 为 手工 操作 。 第 (1) 步 为 上 线 前 的 数据 库 准 备 ， 是 一 次 性 工作 ; 
第 OD. G) 步 为 周期 性 工作 。 对 于 第 (3) 步 ， 可 以 用 PL/SQL 脚 本 
实现 。 首 先 在 B 库 机 器 上 规划 好 目录 ， 这 里 Di:\logmine 为 主 目录 ， 
Di:\logmine\redo_log 存 放 从 A 库 复 制 来 的 归档 日 志文 件 。 然 后 在 B 库 上 执 
行 一 次 初始 化 对 象 脚本 ， 建 立 一 个 外 部 表 ， 存 储 归 档 日 志文 件 名 称 。 


























create or replace 


directory logfilename dir as 


'D:NlogmineN'; 
grant read, write on directory logfilename dir to ui; 


conn useri/password1 


begin 
excute immediate 'create table 


logname ext (logfile name varchar2 


(300)) organization 
external 


(type 


oracle loader default 


directory data dir logfilename dir location 
(''log file name.txt''))'; 
exception when others then 

if sqlcode = -955 then -- 名 称 已 由 现 有 对 象 使 用 


null; 
else 
raise; 
end if; 
end; 
/ 





每 次 数据 同步 时 要 做 的 工作 是 : 


(1) 复制 A 库 归档 日 志文 件 到 B 的 Dilogminevedo log 目录。 

(2) $47D:\logmine\create_ext_table.bat. 

(3) 前面 步骤 成 功 执行 后 ， 删 除 第 〈1) 步 复 制 的 归档 日 志文 件 。 
create_ext_table.bat 脚 本 文件 内 容 如 下 : 


echo off 
dir /a-d /b /s D:\logmine\redo_log\*.log > D:Mlogmine*Mlog file n 
sqlplus useri/passwordi QD:NlogmineNcreate ext table.sql 


create_ext_table.sql 肢 本 文件 的 内 容 如 下 : 


begin 
for x in (select logfile name from logname ext) loop 
dbms logmnr.add logfile(x.logfile name); 
end loop; 
end; 


if 
execute dbms logmnr.start logmnr(options => dbms logmnr.committed data only); 


begin 
for x in (select sql redo 
from v$logmnr contents 
~~ 只 应 用 U1 用 户 模式 的 数据 变化 ， 一 定 要 按 提交 的 SCN 排序 
where table space != 'SYSTEM' and instr(sql redo,'"U1".') > 0 
order by commit scn) 





loop 
execute immediate x.sql redo; 
end loop; 
end; 
/ 


exit; 


使 用 基于 数据 库 的 日 志 工 具 也 有 缺陷 ， 即 只 能 用 来 处 理 一 种 特定 的 
数据 库 ， 如 果 要 在 异 构 的 数据 库 环 境 下 使 用 基于 日 志 的 CDC 方 法 ， 就 要 
使 用 Oracle GoldenGate 之 类 的 商业 软件 。 











7.3 导出 成 文本 文件 


前 面 讨论 了 多 种 CDC 的 方法 ， 也 针对 每 种 方法 分 别 给 出 了 实现 的 例 
子 。 目 前 为 止 只 是 解决 了 需要 抽取 哪些 数据 的 问题 ， 下 和 面 讨论 如 何 抽 取 
数据 的 问题 。 

要 回答 如 何 抽取 数据 的 问题 ， 我 们 需要 从 源 系 统 和 目标 数据 仓库 两 
端的 数据 存储 形式 入 手 。 在 传统 数据 仓库 环境 下 ， 源 系统 的 数据 通常 来 
目 组 织 中 的 事务 类 应 用 系统 。 大 部 分 这 类 系统 都 是 把 数据 存储 在 关系 数 





据 库 中 ， 如 MySQL、Oracle 或 SQL Server 等 。 而 我 们 的 目标 数据 仓库 及 
其 过 渡 区 是 建立 在 Hive 中 的 数据 库 ， 数 据 最 终 会 以 某 种 文件 格式 存储 于 
Hadoop 的 HDFS 上 。 


最 直接 的 想法 是 ，ETL 系 统 直 连 源 数 据 库 ， 然 后 编写 应 用 程序 或 者 
使 用 某 种 工具 ， 如 第 5 章 介绍 的 Kettle， 或 后 面 即将 介绍 的 Sqoop 等 ， 将 
数据 抽取 到 HDFS 或 Hive 表 中 。 这 种 方法 的 一 个 主要 好 处 是 可 以 有 效 利 
用 工具 本 身 提供 的 特性 ， 提 高 ETL 的 性 能 。 比 如 Kettle 可 以 多 线程 执行 
一 个 步 又， 并 且 多 个 步骤 也 是 以 数据 流 的 方式 并 行 执 行 的 ， 这 种 方式 会 
大 大 加 快 数据 操作 执行 的 速度 ， 其 效果 用 SQL 是 难以 实现 的 。 但 如 果 源 
数据 库 没 有 可 用 的 驱动 程序 ， 或 者 因为 安全 问题 不 能 直 连 ， 在 这 种 情况 
下 ,一 般 就 需要 将 源 数 据 库 中 的 数据 导出 成 以 预定 义 好 的 分 隔 符 ， 如 去 
号 分 隔 的 文本 文件 ， 然 后 用 Hadoop 的 dfs 命 令 将 文件 上 传 到 Hive 表 对 应 
的 目录 中 ， 或 者 使 用 Hive 的 load data local inpath 语 名 将 数据 装载 到 目标 
表 中 。 以 文本 文件 的 形式 交换 数据 是 一 种 可 行 的 通用 方法 ， 虽 然 大 多 数 
关系 数据 库 系统 支持 BLOB 这 样 的 二 进 制 数据 类 型 ， 但 这 种 类 型 的 数据 
很 少 被 用 于 分 析 场 景 ， 数 据 仓库 中 的 数据 基本 都 能 表示 成 纯 文 本 的 形 
式 。 因 此 ， 下 面 我 们 重点 讨论 将 关系 数据 库 中 的 数据 导出 成 文本 文件 的 
Wi tis 

大 多 数 数据 库 系 统 都 提供 数据 导出 或 者 卸载 数据 的 工具 或 命令 ， 从 
一 个 数据 库 内 部 格式 导出 成 文本 文件 。 使 用 最 多 的 文本 文件 类 型 是 分 隔 
符 文件 ， 在 这 种 文件 里 ， 每 个 字段 或 列 都 由 特定 字符 如 逗号 或 TAB 符 号 
分 隔 。 通 常 这 类 文件 也 称 为 CSV (逗号 分 隔 值 ) 文件 或 TAB 符 分 隔 文 
件 。 

很 多 时 候 数据 抽取 并 不 需要 将 整个 数据 库 的 数据 秋 载 到 文本 文件 。 
有 些 情 况 下 ， 适 合 缀 载 整 个 数据 库 表 和 对 象 ， 而 另外 一 些 情况 ， 可 能 
适合 外 载 一 个 给 定 表 的 子 集 ， 这 个 源 系统 上 表 的 子 集 包 含 最 后 一 次 抽取 
后 发 生 了 变化 的 表 ， 或 者 是 多 表 连 接 的 结果 。 不 同 的 抽取 技术 在 这 两 种 
































场景 下 表现 出 不 同 的 能 


如 果 源 系统 是 Oracle 数 据 库 ， 可 以 使 用 SQL*Plus 中 的 spool 命 令 完 成 
数据 导出 。SQL*Plus 是 Oracle 的 命令 行 工 具 ， 在 SQL*Plus 中 不 仅 能 执行 
SQL 命令 ， 还 可 以 执行 SQL#*Plus 上 自己 的 命令 ，spool 就 是 其 中 之 一 。 通 过 
spoo] 命 令 可 以 将 Select 得 询 的 结果 保存 到 文件 中 。 下 面 是 一 个 spool 导 出 
文件 的 例子 。 


set echo off; 

set heading off; 
set line 1000; 
set pagesize 0; 
set numwidth 12; 
set termout off; 
set trimout on; 
set trimspool on; 
set feedback off; 
set timing off; 


spool result.lst 
select * from mytable; 
spool off 


将 上 面 的 语句 保存 成 文件 asql， 再 建立 一 个 a.sh 脚 本 调用 这 个 SQL 
脚本 文件 。 
#!/bin/bash 
export NLS_LANG=american_america.AL32UTF8 
sqlplus useri/passwordi << ! 


start a.sql 
exit; 
| 


执行 ash， 就 生成 了 一 个 名 为 result.lst 的 文本 文件 ， 内 容 就 是 查询 语 
句 的 结果 ， 以 默认 的 空格 作为 列 之 间 的 分 卫生 。a.sql 中 的 多 个 set 命 令 设 
置 SQL*Plus 系 统 变 量 ， 用 于 控制 输出 文件 的 格式 。 有 具体 含义 可 得 阅 
Oracle 相 关 文 档 ， 这 里 不 再 过 多 说 明 。 使 用 spool 需 要 注意 的 一 个 地 方 古 
字符 集 问题 ， 如 果 客 户 闻 设置 不 当 ， 导 出 的 中 文 可 能 出 现 乱 码 。 使 用 如 


下 语句 得 询 数 据 库 字符 集 : 


Select 


property value from 


database properties where 


property name like 


'NLS_CHAR%'; 


比如 查询 结果 是 AL32UTF8， 那 么 在 进入 sqlplus 之 前 要 设置 : 


export NLS LANG-american america.AL32UTF8 


这 种 抽取 技术 的 好 处 在 于 能 够 抽取 任意 SQL 碍 询 语 句 的 输出 ， 并 且 
只 要 写 SQL 碍 询 语句 就 行 了 ， 不 需要 任何 编程 工作 。 但 它 的 缺点 也 很 明 
显 ， 如 果 表 的 数据 量 很 大 ， 导 出 过 程 将 慢 到 无 法 容忍 的 程度 。 此 时 就 得 
采用 其 他 的 数据 导出 方式 ， 比 如 使 用 Oracle 的 UTL_FILE 系 统 包 ， 就 可 
以 实现 快速 导出 ， 当 数据 量 巨大 并 要 求 在 一 个 较 短 的 时 间 内 导出 数据 
时 ， 推 荐 使 用 这 种 方案 。 下 面 看 一 个 实际 的 例子 。 


有 个 需求 要 从 Oracle 表 里 导出 数据 ， 存 成 CSV 文 本 文件 。 数 据 量 有 4 
亿 多 行 、25GB。 最 普通 的 解决 方案 是 在 SQL*PLUS 使 用 spool。 尽 管 该 
方案 在 某 些 情况 下 可 行 ， 但 它 的 速度 太 慢 ， 和 输出 大 约 每 秒 1MB 字 节 ， 全 
部 导出 需要 7 个 多 小 时 ， 这 是 不 可 接受 的 。 解 决 这 个 问题 的 总 体 思路 
是 : 自 定 义 一 个 函数 ， 调 用 UTL_FILE 包 输出 数据 ， 并 且 使 用 PIPELINE 
函数 并 行 输出 。 使 用 这 种 方案 的 好 处 是 : 

















e 它 是 很 简单 的 SQL， 无 须 大 量 的 SQL*PLUS 命 令 ， 不 用 指定 行 尺 
寸 或 ON/OFF 切 换 。 
e 因为 它 是 SQL， 所 以 可 以 从 几乎 任何 地 方 执行 它 ， 甚 至 可 以 插入 
到 PL/SQL 里 。 
。 最 重要 的 一 点 ， 它 执行 很 快 ， 如 果 使 用 并 行 ， 可 以 到 达 很 高 的 速 
度 。 
以 下 是 实现 代码 ，DATA_UNLOAD 是 一 个 自 定义 函数 ， 函 数 的 结 
尾 加 一 个 pipelined 关 键 字 ， 说 明 这 是 一 个 管道 函数 。 该 函数 的 返回 参数 
类 型 为 集合 ， 这 是 为 了 使 其 能 作为 表 函 数 使 用 。 表 函数 在 from 子 句 中 以 
table(dump_ntb 调 用 的 ，dump_ntt 束 是 一 个 集合 类 型 的 参数 。 
PARALLEL _ ENABLE 使 得 管道 函数 可 以 多 进程 同时 执行 。 并 行 执行 还 
有 一 个 好 处 ， 就 是 将 数据 插入 方式 从 第 规 路 径 转 换 为 直接 路 径 。 直 接 路 
径 可 以 大 量 减 少 redo 日 志 的 生成 量 。UTL_FILE 包 将 结果 行 数据 输出 到 
指定 文件 中 。 














测试 结果 是 ，411079803 行 、25GB 数 据 导 出 成 文本 文件 ， 用 时 7 分 
56 秒 ， 导 出 速度 比 spoo] 方 法 提高 近 60 倍 。 需 要 强调 的 一 点 是 ， 只 要 数据 
源 是 9i 及 其 以 后 版 本 的 Oracle 数 据 库 ， 此 PL/SQL 代 码 普 遍 适 用 。 

如 果 数 据 源 是 MySQL 数 据 库 ， 可 以 使 用 select ... into outfile 语 句 实 
现 数据 导出 功能 。 例 如 下 面 的 语句 将 tl 表 的 数据 导出 到 /tmp/t1.txt 文 件 
中 ， 字 上 段 以 逗号 分 隔 。 





select * into 


outfile '/tmp/ti.txt' fields terminated by 


' from 


ti; 


如 果 和 希望 导出 不 带 任何 查询 条 件 的 整个 表 的 数据 ， 甚 至 导出 整个 数 
据 库 的 数据 ， 可 以 有 更 简便 的 方法 。 例 如 使 用 mysqldump 命 令 行 工 具 ， 
可 以 一 次 性 导出 多 个 表 、 多 个 库 或 所 有 库 的 数据 。 


mysqldump -uuser1 -ppasswordi1 test tree -t -T d:\\ --fields-term 





在 上 面 的 mysqldump 命 令 中 ，test 是 导出 的 数据 库 ，tree 是 导出 的 数 
据 表 ，-t 参 数 表 示 不 导出 create 信 息 ，-T 参 数 指定 导出 文件 的 位 置 ，-- 
fields-terminated-by=, 表 示 以 逗号 作为 字段 分 陋 符 。 上 面 命令 执行 后 ， 在 
D 盘 根 目录 下 会 生成 名 为 tree.txt 的 文件 ， 文 件 内 容 就 是 表 tree 的 全 部 数 
FE o 
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但 它 利 用 的 是 Oracle 数 据 库 本 身 提供 的 功能 特性 ， 换 成 别 的 数据 库 就 无 





法 执行 了 。 有 没有 一 种 比较 通用 的 并 行 执 行 多 个 导出 过 程 的 方法 呢 ? 
种 数据 库 都 提供 命令 行 接口 执行 SQL 语 句 ， 因 此 最 容易 想到 的 就 是 通过 
初始 化 多 个 并 发 的 会 话 并 行 执 行 ， 每 个 会 话 运行 一 个 单独 的 查询 ， 用 来 
抽取 不 同 的 数据 部 分 。 

还 以 Oracle 为 例 ， 假 设 要 从 订单 表 抽 取 数 据 ， 订 单 表 已 经 是 按 月 做 
了 范围 分 区 ， 分 区 名 称 是 orders_jan2008、orders_feb2008 等 。 要 从 订单 
表 抽 取 一 年 的 数据 ， 可 以 初始 化 12 个 并 发 的 SQL*Plus 会 话 ， 每 个 抽取 一 
个 分 区 。 每 个 会 话 执 行 的 SQL 脚本 应 该 类 似 : 








spool order jan.dat 
select * from 


orders partition 


(orders jan2008); 
spool off 


这 12 个 SQL*Plus 进 程 将 并 行 导出 数据 到 12 个 文件 。 如 果 需 要 ， 还 可 
以 在 抽取 后 使 用 操作 系统 命令 将 12 个 文件 合并 起 来 〈 如 Linux 的 cat 命 
令 ) 。 

即使 订单 表 没 有 分 区 ， 仍 然 可 以 基于 逻辑 条 件 执 行 并 行 抽取 。 人 逻辑 
方法 是 基于 列 值 的 逻辑 范围 ， 例 如 : 
select ... where order date 
between to_date('2008-01-01', 'yyyy-mm-dd') and to date('2008-01- 

回想 一 下 刚才 执行 ash 脚 本 导出 了 mytable 表 的 数据 ， 现 在 对 a.sh 稍 
加 修改 ， 在 其 中 多 次 调用 a.sql， 并 且 使 这 些 调用 并 行 执行 ， 从 命令 行 接 


收 并 行 度 参数 。 


#!/bin/bash 

export NLS_LANG=american_america.AL32UTF8 
IO on i0 scs eb st v) 

do 


sqlplus useri/passwordi << ! 
start a.sql 
exit; 


cat ./result.lst >> aa.txt 


脚本 中 使 用 了 & 符 号 ， 使 得 们 内 的 命令 在 后 台 并 行 执 行 ， 并 将 每 次 
生成 的 文本 文件 result.lst 合 并 到 一 个 新 的 文件 aa.txt 中 。 等 到 循环 里 面 的 
命令 都 结束 之 后 才 执行 接 下 来 的 date 命 令 。 我 们 用 这 个 示例 说 明 并 行 执 
行 多 个 SQL 脚本 文件 〈 这 里 多 次 执行 同一 个 文件 asql， 当 然 实际 中 应 该 
是 多 个 不 同 的 SQL 文件 ) 。mytable 表 有 57606 行 记录 ， 如 果 执 行 两 次 ， 
文件 中 应 该 有 115212 行 记录 。 


[oracle@data-01 ~]$ ./a.sh 2 


[oracleQdata-01 ~]$ cat result.lst | wc -1 
57606 

[oracleQdata-01 一 ]$ cat aa.txt | wc -1 
115212 


换 做 MySQL 数 据 库 ， 整 体 思路 是 一 样 的 ， 只 要 把 sqlplus 换 成 mysq]l 
客户 端 ， 再 针对 MySQL 的 语法 做 相应 的 修改 即 可 。 


并 行 抽取 一 个 复杂 的 SQL 但 询 有 时 是 可 行 的 ， 尺 管 将 一 个 单一 查询 
分 成 多 个 部 分 可 能 是 一 个 挑战 。 在 并 行 模式 下 ， 协 调 多 个 独立 的 进程 ， 
保证 一 个 整体 一 致 的 视图 可 能 是 非常 困难 的 ， 而 且 所 有 并 行 技术 都 会 使 
用 更 多 的 CPU 和 VO 资源 ， 因 此 在 执行 任何 并 行 抽取 技术 前 需要 评估 对 


系统 性 能 的 影响 。 我 们 应 该 控制 并 发 进程 的 个 数 ， 不 然 会 影响 系统 其 他 
进程 的 运行 。 


7.4 分布 式 查询 


源 系统 可 能 会 使 用 了 多 种 关系 数据 库 系统 ， 它 们 往往 是 独立 的 ， 并 
处 于 远程 系统 中 ， 这 种 情况 很 常见 。 如 果 能 够 从 一 个 单一 数据 库 访 问 其 
他 的 数据 库 系统 ， 比 如 从 Oracle 访 问 SQL Server 和 MySQL， 或 者 从 SQL 
Server 访 问 Oracle 和 MySQL， 无 疑 会 最 小 化 编程 需要 ， 给 数据 抽取 的 开 
发 带 来 极 大 的 便利 。 

Oracle 和 SQL Server 都 提供 分 布 式 和 查询 功能 。Oracle 通 过 透明 网 关 和 
数据 库 链 (Database Link) 实现 分 布 式 碍 询 。SQL Server 则 使 用 链接 服 
务 器 。 它 们 可 以 建立 不 同 的 数据 库 系 统 之 间 的 联系 ， 并 可 作为 数据 集成 
的 重要 工具 之 一 。 现 分 别 以 Oracle 和 SQL Server 为 例 进行 说 明 。 


1. 建立 Oracle 到 MySQL 的 连接 


需求 是 从 Oracle 10.2.0.1 访 问 MySQL 5.1.34， 两 种 数据 库 系 统 都 安装 
在 Linux 系 统 上 ， 我 们 要 在 Oracle 所 在 主机 上 做 一 些 配 置 。 
(1) 安装 UNIX ODBCUKZ/J, MySQL ODBC 和 Oracle 透 明 网 关 三 个 
软件 包 
用 root 用 户 安 装 unixODBC: 
rpm -Uvh unixODBC-2.2.12-1.e14s1.1.1386.rpm 
用 root 用 户 安装 MySQL ODBC: 


rpm -Uvh mysgl-connector -odbc-5.1.5-0.1386.rpm 


用 oracle 用 户 安装 Oracle Gateway， 安 装 方 法 和 oracle db 软件 一 样 ， 
把 gateway 和 db 装 一 起 了 ， 共 用 一 个 OracleHOME: 


unzip 10201 gateways linux32.zip 
cd gateways 
./runiInstaller 


(2) 配置 ODBC 数 据 源 
用 root 用 户 配 置 ODBC 数 据 源 : 


vi /etc/odbc.ini 





编辑 该 文件 ， 根 据 实际 情况 填写 : 


[DSName] 
Driver = /usr/lib/libmyodbc5.so 
Description = MySQL 
Server = KOK RR OO RRR 
Port = 3306 
User = root 
UID = root 
Password = mypass 
Database = mysqldbname 
Option = 3 
Socket = 
charset = utf8 
测试 ODBC: 


isql -v DSName root mypass 


用 oracle 用 户 配置 网 关 的 ODBC 数 据 源 : 
vi $ORACLE HOME/hs/admin/initDSName.ora 
编辑 该 文件 内 容 如 下 : 


HS FDS CONNECT INFO = DSName 
HS FDS TRACE LEVEL = 0 
HS FDS SHAREABLE NAME = /usr/lib/libmyodbc5.so 


(3) 配置 Oracle 监 听 器 和 客户 端 网 络 服务 名 
编辑 listener.ora 文 件 ， 按 实际 情况 添加 如 下 的 描述 部 分 : 


(SID_DESC = 
(SID NAME = phpcms) 
(ORACLE HOME = /usr/uO1/app/oracle/product/10.2.0/db 1) 
(PROGRAM - hsodbc) 


编辑 nsnames.ora， 按 实际 情况 添加 如 下 部 分 : 


DSName = 
(DESCRIPTION = 
(ADDRESS LIST = 
(ADDRESS = (PROTOCOL = TCP) (HOST = 192.168.0.125) (PORT = 1521)) 


) 
(CONNECT DATA = (SERVICE NAME = DSName)) 
(HS = OK) 


重启 监听 需 并 测试 : 


lsnrctl reload 
lsnrctl service 
tnsping DSName 


(40 建立 数据 库 链 


create public 


database link linkname 
connect to 


"root" 
identified by 


<pwd> 
using 


'dsname' ; 


测试 ， 现 在 就 可 以 执行 Oracle 和 MySQL 的 分 布 式 查询 了 : 


select 
"name" from 


t1Qlinkname; 


Oracle 网 关 的 HSODBC 驱 动 程序 对 MySQL 的 支持 还 不 是 很 完善 ， 如 
字符 集 问题 ， 最 好 将 Orade 和 MySQL 的 字符 集 都 设置 成 tft8， 否 则 查询 
中 文 会 显示 乱码 ， 再 有 查询 MySQL 表 中 text 数 据 类 型 的 字段 会 报错 。 








select "textcol" from tiQlinkname; 

ORA-28500: 连接 ORACLE 到 非 Oracle 系统 时 返回 此 信息 

[Generic Connectivity Using ODBC][MySQL][ODBC 5.1 Driver]|[mysqld 
error in your SQL syntax; check the manual that corresponds to y 
the right syntax to use near '"ti1" WHERE "id"=1' at line 1 (SQL 
ORA-02063: 紧 接 着 2 lines (起 自 DSName) 





2. 建立 SQL Server 到 Oracle 的 连接 


通过 链接 服务 器 建立 一 个 从 SQL Server 2005 到 Oracle 11G 的 连接 ， 
并 从 Oracle 数 据 库 查 询 数 据 。 在 此 SQL Server 2005 为 目标 数据 库 服务 
器 ， 而 Oracle 为 源 数据 库 服 务 器 。 

(1) 在 SQL Server 所 在 的 服务 器 安装 Oracle 客 户 问 软件 。 

(2) 配置 msnames.ora 文 件 ， 示 例如 下 。 


MYDB = 
(DESCRIPTION = 
(ADDRESS_LIST = 


(ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.0.125)(PORT = 1 


) 
(CONNECT_DATA = 
(SERVICE_NAME = mydb) 


) 
) 


(3) 从 SQL Server 上 运行 一 个 系统 过 程 软件 包 sp_addlinkedserver， 
建立 链接 服务 器 。 


exec 
master.dbo.sp addlinkedserver Qserver 


Qsrvproduct - N'oracle', Qprovider 
@datasrc = N'mydb' 


N'linkoracle', 
N'OraOLEDB.Oracle', 


其 中 ， 链 接 服务 器 名 为 linkoracle，OraOLEDB.Oracle 为 Oracle 的 
OLE DB，mydb 为 msnames.ora 文 件 中 定义 的 服务 别名 。 


(4) 运行 一 个 系统 过 程 软件 包 sp_addlinkedsrvlogin 建 立 登录 。 


exec 


master.dbo.sp addlinkedsrvlogin Qrmtsrvname - N'linkoracle', 
Quseself = N'False', @locallogin = N'sa', Qrmtuser = N'user1 
Qrmtpassword = 'password1' 


其 中 ，user1、password1 分 别 为 Oracle 数 据 库 的 用 户 名 和 口令 。 


(5) 在 建立 连接 服务 器 之 后 ， 可 以 用 两 种 SQL 碍 询 语句 进行 分 布 
AUR: 


-- 第 一 种 ，select * from 链接 服务 器 , ,用 户 名 , 表 名 ， 语 法 简单 ， 性 能 较 差 
select * from 











linkoracle..USER1.TAB; 


-- 第 二 种 ，openduery 函 数 
Select * from 


openquery(linkoracle, 'select * from tab'); 


为 方便 对 链接 服务 器 的 访问 ， 可 以 在 SQL Server 中 建立 如 下 函数 : 


create function fni (Qtable name varchar(30)) 
returns table 
as return (select * from linkoracle..USER1.TAB where tname = @ta 


然后 可 以 直接 从 SQL Server 调 用 表 函 数 以 获取 外 部 数据 : 


select * from fni ('T1'); 


7.5 ”使 用 Sqoop 抽 取 数 据 


有 了 前 面 的 讨论 和 实验 ， 我 们 现在 已 经 可 以 处 理 从 源 系 统 获取 数据 
的 各 种 情况 。 回 想 上 一 章 建 立 的 销售 订单 示例 ， 源 系统 的 MySQL 数 据 
库 中 已 经 添加 好 测试 数据 ，Hive 中 建立 了 rds 数 据 库 作为 过 渡 区 ，dw 库 
存储 维度 表 和 事实 表 。 这 里 我 们 将 使 用 一 种 新 的 工具 将 MySQL 数 据 抽 
取 到 Hive 的 rds 库 中 ， 它 就 是 Sqoop。 





7.5.1 ”Sqoop 简 介 


Sqoop 是 一 个 在 Hadoop 与 结构 化 数据 存储 (如 关系 数据 库 ) 之 间 高 
效 传输 大 批量 数据 的 工具 。 它 在 2012 年 3 月 被 成 功 鳃 化 ， 现 在 已 是 
Apache 的 顶级 项 目 。Sqoop 有 Sqoop1 和 Sqoop2 两 代 ，Sqoop1l 最 后 的 稳定 
版 本 是 1.4.6，Sqoop2 最 后 版 本 是 1.99.6。 需 要 注意 的 是 ，1.99.6 与 1.4.6 并 
不 兼容 ， 而 且 截 至 目前 为 止 ，1.99.6 并 不 完善 ， 不 推荐 在 生产 环境 中 部 
署 。 








Sqoop1 和 Sdqoop2 的 架构 分 别 如 图 7-1、 图 7-2 所 示 。 
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第 一 代 Sqoop 的 设计 目标 很 简单 : 


e 在 企业 级 数据 仓库 、 关 系数 据 库 、 文 档 系统 和 HDFS、HBase 或 
Hive 之 间 导 入 导出 数据 。 

。 基于 客户 端的 模型 。 

e 连接 器 使 用 厂商 提供 的 驱动 。 


e. 没有 集中 的 元 数据 存储 。 
。 只 有 Map 任 务 ， 没 有 Reduce 任 务 ， 数 据 传输 和 转化 都 由 Mappers 
提供 。 


可 以 使 用 Oozie 调 度 和 管理 Sqoop 作 业 。 
Sqoop1l 是 用 Java 开 发 的 ， 完 全 客户 端 驱动 ， 严 重 依 赖 于 JDBC， 可 
以 使 用 简单 的 命令 行 命令 导入 导出 数据 。 例 如 : 


# 把 MySQL 中 testdb.PERSON 表 的 数据 导入 HDFS 
sqoop import --connect jdbc:mysql://localhost/testdb --table PER 


password **** 


上 面 这 条 命令 形成 一 系列 任务 : 


。 生成 MySQL 的 SQL 代码 。 
e 执行 MySQL 的 SQL 代码 。 
e 生成 Map 作 业 。 

。 执行 Map 作 业 。 

。 数据 传输 到 HDFS 。 


# 将 HDFS 上 /user/localadmin/CLIENTS 目 录 下 的 文件 导出 到 MySQL 的 testdb.CcL 
sqoop export --connect jdbc:mysql://localhost/testdb --table CLI 
password **** --export-dir /user/localadmin/CLIENTS 


上 面 这 条 命令 形成 一 系列 任务 : 


e 生成 Map 作 业 。 

e 执行 Map 作 业 。 

。 从 HDFS 的 /user/localadmin/CLIENTS 路 径 传输 数据 。 

e 生成 MySQL 的 SQL 代码 。 

。 向 MySQL 的 testdb.CLIENTS_INTG 表 插入 数据 。 

Sqoop1l1 有 许多 简单 易 用 的 特性 ， 如 可 以 在 命令 行 指 定 直 接 导 入 至 
Hive 或 HDFS。 连 接 嚣 可 以 连接 大 部 分 流行 的 数据 库 : Oracle. 
SQLServer、MySQL、Teradata、PostgreSQL 等 。Sqoop1 的 主要 问题 包 
括 : 繁多 的 命令 行 参 数 ， 不 安全 的 连接 方式 ， 如 直接 在 命令 行 写 密码 
等 ;没有 元 数据 存储 ， 只 能 本 地 配置 和 管理 ， 使 复 用 受到 限制 。 

Sqoop2 体 系 结构 比 Sqoop1 复 杂 得 多 ， 它 被 设计 用 来 解决 Sqoop1 的 问 
题 ， 主 要 体现 在 易 用 性 、 可 扩展 性 和 安全 性 三 个 方面 : 


1. ARATE 








Sdqoop1 需 要 客户 端的 安装 和 配置 ， 而 Sqdoop2 是 在 服务 器 端 安装 和 配 
置 。 这 意味 着 连接 器 只 在 一 个 地 方 统一 配置 ， 由 管理 员 角 色 管理 ， 操 作 
员 角 色 使 用 。 类 似 地 ， 只 需要 在 一 台 服 务 器 上 配置 JDBC 驱 动 和 数据 库 
连接 。Sqoop2 还 有 一 个 基于 Web 的 服务 : 前 端 是 命令 行 接口 (CLI) 和 
浏览 器 ， 后 端 是 一 个 元 数据 知识 库 。 用 户 可 以 通过 交互 式 的 Web 接 口 进 
行 导入 导出 ， 避 免 了 错误 选项 和 繁 见 步 又。Sqoop2 还 在 服务 器 端 整合 
Hive 和 HBase。Oozie 通 过 REST API 管 理 Sqoop 任 务 ， 这 样 当 安装 一 个 新 
的 Sqoop 连 接 器 后 ， 无 须 在 Oozie 中 安装 它 。 


2. 可 扩展 性 











在 Sgoop2 中 ， 连 接 器 不 再 受 限于 JDBC 的 SQL 语 法 ， 如 不 必 指 定 
database、table 等 ， 其 至 可 以 定义 自己 使 用 的 SQL 方 言 。 例 如 ， 
Couchbase 不 需要 指定 表 名 ， 只 需 在 填充 或 卸载 操作 时 重 载 它 。 通 用 的 








功能 将 从 连接 器 中 抽取 出 来 ， 使 之 只 负 贡 数据 传输 。 在 Reduce 阶 段 实现 
通用 功能 ， 确 保 连 接 器 可 以 从 将 来 的 功能 性 开发 中 受益 。 连 接 器 不 再 需 
要 提供 与 其 他 系统 整合 等 下 游 功能 ， 因 此 ， 连 接 占 的 开发 者 不 再 需要 了 
解 所 有 Sqoop 支 持 的 特性 。 


3. 安全 性 


Sqoop1 用 户 是 通过 执行 sqoop 命 令 运 行 Sqoop。Sqoop 作 业 的 安全 性 
主要 由 是 否 对 执行 Sqoop 的 用 户 信任 所 决定 。Sqoop2 将 作为 基于 应 用 的 
服务 ， 通 过 按 不 同 角 色 连 接 对 象 ， 文 持 对 外 部 系统 的 安全 访问 。 为 了 进 
一 步 安 全 ，Sqoop2 不 再 允许 生成 代码 、 请 求 直 接 访问 Hive 或 HBase， 也 
不 对 运行 的 作业 开放 访问 所 有 客户 端的 权限 。Sqoop2 将 连接 作为 一 级 对 
象 ， 包 含 证 书 的 连接 一 旦 生成 ， 可 以 被 不 同 的 导入 导出 作业 多 次 使 用 。 
连接 由 管理 员 和 生成， 被 操作 员 使 用 ， 因 此 避免 了 最 终 用 户 的 权限 泛滥 。 
此 外 ， 连 接 可 以 被 限制 只 能 进行 某 些 基本 操作 ， 如 导入 导出 ， 还 可 通过 
限制 同一 时 间 打 开 连 接 的 总 数 和 一 个 禁止 连接 的 选项 来 管理 资源 。 





7.5.2 CDH 5.7.0 中 的 Sqoop 


CDH 5.7.0 中 既 包含 Sqoop1 又 包含 Sqgoop2，Sqoop1 的 版 本 是 1.4.6， 
Sqoop2 的 版 本 是 1.99.5。 当 前 的 Sqoop2 还 缺少 Sqoop1 的 某 些 特性 ， 因 此 
Cloudera 的 建议 是 ， 只 有 当 S$dqoop2 完 全 满足 需要 的 特性 时 才 使 用 它 ， 个 
则 继续 使 用 Sqoop1。CDH 5.7.0 中 的 Sqoop1 和 Sqoop2 的 特性 区 别 如 表 7-2 
Hz. 


表 7-2 Sqoop1 与 Sqoop2 特 性 比较 


所 有 X € 不 文 持 
RDBMS 的 连接 变通 方案 ， 使 用 通用 的 JDBC 连接 器 ， 它 已 经 在 
E Microsoft SQL Server, PostgreSQL. MySQL 和 Oracle Zi 
据 库 上 测试 过 。 这 个 连接 器 应 该 可 以 在 任何 JDBC 兼容 
的 数据 库 上 使 用 ， 但 性 能 比 不 上 Sqoopl 的 专用 连接 器 
Kerberos 整合 不 支持 
数据 从 RDBMS | 支持 不 支持 
传输 到 Hive 或 变通 方案 : 用 下 面 两 步 方 法 。 
HBase 1. 数据 从 RDBMS 导入 HDFS 
2. 使 用 适当 的 工具 或 命令 (如 Hive ff] LOAD DATA if 
句 ) 手工 把 数据 导入 Hive 或 HBase 
数据 从 Hive 或 | 不 支持 不 文 持 
HBase 传输 到 | 变通 方案 用 下 面 两 步 方 | 变通 方案 如 Sqoopl 
RDBMS 法 。 
1. 从 Hive 或 HBase 抽出 数 
据 到 HDFS (文本 文件 或 
Avro 文件 ) 
2. 使 用 Sqoop 将 上 一 步 的 
输出 导入 RDBMS 


7.5.3 ”使 用 Sqoop 抽 取 数 据 
在 销售 订单 示例 中 使 用 Sqoop1 进 行 数据 抽取 。 表 7-3 汇 总 了 示例 中 
维度 表 和 事实 表 用 到 的 源 数据 表 及 其 抽取 模式 。 


表 7-3 销售 订单 抽取 模式 


源 数据 表 rds 库 中 的 表 dw 库 中 的 表 抽取 模式 


customer customer customer dim 整体 、 拉 取 














product NETS 


order dim, sales order fact SEF al FRA CDC. ALEX 





对 于 customer、product 这 两 个 表 采 用 整体 拉 取 的 方式 抽取 数据 。 
ETL 通 党 是 按 一 个 固定 的 时 间 间 隔 ， 周 期 性 定时 执行 的 ， 因 此 对 于 整体 


PAT SUI ers BRR SAN CDS m RR i CSS. SqoopH? 

Te Bt f hive-overwriteZ Zi SCH 78 nt A 。hive-overwrite 的 另 一 个 作用 是 
jet [Nae SSR VE A CPE. AT BE ETB AY ee AUT FER E XUI 
生 的 影响 均 与 一 次 执行 的 影响 相同 。 这 样 就 能 在 导入 失败 或 修复 bug 后 

可 以 再 次 执行 该 操作 ， 而 不 用 担心 重复 执行 会 对 系统 造成 数据 混乱 。 具 
体 Sqoop 命 令 如 下 ， 其 中 hive-import 参 数 表示 同 hive 表 导入 ，hive-table 参 
数 指 定 目 标 hive 库 表 。 














sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table customer --hive-import --hive-table rds.custo 
sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table product --hive-import --hive-table rds.produc 


2， 增 量 导入 





Sqoop 提 供 增 量 导 入 模式 ， 用 于 只 导入 比 已 经 导入 行 新 的 数据 行 。 
表 7-4 所 示 参 数 用 来 控制 增 量 导入 。 





表 7-4 Sqoop 增 量 导入 模式 














参数 描述 

--check-column 在 确定 应 该 导入 哪些 行 时 ， Fe Km A y. WA HE 
CHAR/NCHAR/VARCHAR/VARNCHAR/LONGVARCHAR/LONGNVARCHAR 
数据 类 型 


--incremental 指定 Sqoop 怎样 确定 哪些 行 是 新 行 。 有 效 值 是 append 和 lastmodified 
--last-value 指定 已 经 导入 数据 的 被 检查 列 的 最 大 值 








Sqoop 支 持 两 种 类 型 的 增 量 导 入 : append 和 1lastmodified。 可 以 使 用 -- 
incremental 参 数 指定 增 量 导 入 的 类 型 。 

当 被 导入 表 的 新 行 具有 持续 递增 的 行 id 值 时 ， 应 该 使 用 append 模 
式 。 指 定 行 id 为 --<check-column 的 列 。Sqoop 导 入 那些 被 检查 列 的 值 比 -- 
last-value 给 出 的 值 大 的 数据 行 。 


Sqoop 文 持 的 另 一 个 表 修 改 策略 叫做 lastmodified 模 式 。 当 源 表 的 数 





据 行 可 能 被 修改 ， 并 且 每 次 修改 都 会 更 新 一 个 last-modified 列 为 当前 时 
间 惟 时 ， 应 该 使 用 lastmodified 模 式 。 那 些 被 检查 列 的 时 间 惟 比 --last- 
value 给 出 的 时 间 戳 新 的 数据 行 被 导入 。 


增 量 导入 命令 执行 后 ， 在 控制 台 输出 的 最 后 部 分 ， 会 打印 出 后 续 导 
入 需要 使 用 的 last-value。 当 周期 性 执行 导入 时 ， 应 该 用 这 种 方式 指定 -- 
last-value 参 数 的 值 ， 以 确保 只 导入 新 的 或 修改 过 的 数据 。 可 以 通过 一 个 
增 量 导入 的 保存 作业 自动 执行 这 个 过 程 ， 这 是 适合 重复 执行 增 量 导入 的 

有 了 对 Sqoop 增 量 导 入 的 基本 了 解 ， 下 面 看 一 下 如 何在 本 示例 中 使 
用 它 抽取 数据 。 对 于 sales_order 这 个 表 采 用 基于 时 间 礁 的 CDC 拉 取 方 式 
抽取 数据 。 这 里 假设 源 系 统 中 销售 订单 记录 一 旦 入 库 就 不 再 改变 ， 或 者 
可 以 忽略 改变 ， 也 就 是 说 销售 订单 是 一 个 随时 间 变 化 单 同 退 加 数据 的 
表 。sales_order 表 中 有 两 个 关于 时 间 的 字段 ，order_date 表 示 订 单 时 间 ， 
entry_date 表 示 订 单数 据 实 际 插 入 表 里 的 时 间 ， 在 后 面 11.5 节 讨论 “迟到 
的 事实 ”时 束 会 看 到 两 个 时 间 可 能 不 同 。 那 么 用 哪个 字段 作为 CDC 的 时 
EERIE? 设想 这 样 的 情况 ， 一 个 销售 订单 的 订单 时 间 是 2015 年 1 月 1 日 ， 
实际 插入 表 里 的 时 间 是 2015 年 1 月 2 日 ，ETL 每 天 0 点 执行 ， 抽 取 前 一 天 
的 数据 。 如 果 按 order_date 抽 取 数 据 ， 条 件 为 where order date >= '2015- 
01-02' AND order date < '2015-01-03'， 则 2015 年 1 月 3 日 0 点 执行 的 ETL 不 
会 捕获 到 这 个 新 增 的 订单 数据 。 所 以 应 该 以 entry_date 作 为 CDC 的 时 间 


下 面 测试 一 下 增 量 导入 : 
(1) 建立 sqoop 增 量 导 入 作业 。 























sqoop job --create myjob 1 \ 
-- \ 


import \ 

--connect "jdbc:mysql://cdh1:3306/source?useSSL=false&user=root& 
--table sales_order \ 

--columns "order_number, customer_number, product_code, order_da 


\ 

--where "entry date < current date()" \ 
- -hive-import \ 

--hive-table rds.sales order \ 
--incremental append \ 

--check-column entry_date \ 
--last-value '1900-01-01' 


说 明 : 上 面 的 语句 建立 一 个 名 为 myjob_1 的 Sqoop 作 业 。 使 用 -- 
where 参 数 是 为 了 只 导入 前 一 天 的 数据 。 例 如 ， 在 2 点 执行 此 作业 ， 则 不 
会 导入 0 点 到 2 点 这 两 个 小 时 产生 的 销售 订单 数据 。 


(20 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 





[root@cdh2~ ]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:03:29 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 
incremental.last.value - 1900-01-01 


可 以 看 到 ，last-value 的 值 为 初始 的 '1900-01-01'。 
(3) 首次 执行 作业 。 
sqoop job --exec myjob 1 


为 last-value 的 值 为 1900-01-01'"， 所 以 这 次 会 导入 全 部 数据 ， 查 询 
rds.sales_order， 最 后 结果 如 下 所 示 。 


| 96 | 4 | 1 | 2016-06-27 01:11:38.0 | 2016-06-27 01:11:38.0 | 

| 97 | 2 | 1 | 2016-06-27 02:25:04.0 | 2016-06-27 02:25:04.0 | 

| 98 | 3 | 1 | 2016-06-27 19:25:15.0 | 2016-06-27 19:25:15.0 | 

| 99 | 3 | 2 | 2016-06-28 02:10:23.0 | 2016-06-28 02:10:23.0 | 

| 100 | 4 | 2 | 2016-06-30 05:20:47.0 | 2016-06-30 05:20:47.0 | 
+ 


100 rows selected (0.191 seconds) 


(4) 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 


[root@cdh2~ ]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:12:02 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 
incremental.last.value - 2016-06-30 05:20:47.0 


可 以 看 到 ，last-value 的 值 为 当前 最 大 值 ':2016-06-30 05:20:47". 
(5) 源 库 增 加 两 条 数据 。 





USe 


source; 
set 


Qcustomer number := floor 


(1 * rand() 


= ey 
set 


Qproduct code := floor 


(1 * rand() 


i650 ys 
set 


Qorder date := from unixtime(unix timestamp('2016-07-03') + ran 


* 


(unix timestamp('2016-07-04') - unix timestamp('2016-07-03'))); 
set 





Qorder date := from unixtime(unix timestamp('2016-07-04') + ran 


* 


(unix timestamp('2016-07-05') - unix timestamp('2016-07-04'))); 
set 


Qamount :- floor 


(1000 + rand() 


* 9000); 


insert into 


sales order 
values 


(102, @customer_number, @product_code, @order_date, @order_date, Qam 


commit 





上 面 的 语句 问 sales_order 插 入 了 两 条 记录 ， 一 条 是 7 月 3 日 的 ， 男 一 
条 是 7 月 4 日 的 。 


(6) 再 次 执行 sqoop 作 业 ， 因 为 last-value 的 值 为 '2016-06-30 


05:20:47'， 所 以 这 次 只 会 导入 entry_date 比 '2016-06-30 — 05:20:47 KAA 
据 。 
sqoop job --exec myjob 1 

(7) 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 


[root@cdh2~ ]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:34:34 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 
incremental.last.value - 2016-07-03 22:45:46.0 


可 以 看 到 ，last-value 的 值 已 经 变 为 '2016-07-03 22:45:46' 
(8) 在 hive 的 rds 库 里 查询 ， 前 两 行 记 录 如 下 所 示 。 





select * from rds.sales order order by order number desc; 


| 101 | 3 | 1 | 2016-07-03 22:45:46.0 | 2016-07-03 22:45:46.0 | 
4 | 2 | 2016-06-30 05:20:47.0 | 2016-06-30 05:20:47.0 | 


可 以 看 到 rds.sales_order 表 中 只 新 增 了 一 条 数据 ， 因 为 当前 日 期 是 7 
月 4 日 ， 所 以 7 月 4 日 的 订单 记录 被 作业 中 的 where 参 数 过 小 掉 了 。 
(9) 还 原 数 据 。 


-- 还 原 MySQL 的 sales_order 表 
use 











source; 
delete from 


sales order where 


order number in 


(101, 102); 
alter table 


sales order auto increment-101; 
现在 我 们 已 经 测试 了 用 Sqoop 执 行 数 据 抽取 的 过 程 ， 下 一 节 将 把 


sqoop 命 令 放 到 一 个 shell 脚 本 文件 中 ， 并 使 用 Hive 进 行 数 据 的 转换 与 装 
载 。 





7.5.4 ”Sqoop 优 化 

当 使 用 Sqoop 在 关系 数据 库 和 HDFS 之 间 传 输 数 据 时 ， 有 多 个 因素 影 
啊 其 性 能 。 可 以 通过 调整 Sqoop 命 令 行 参 数 或 数据 库 参数 优化 Sqoop 的 性 
能 。 本 小 节 简 要 描述 这 两 种 优化 方法 。 


1. 调整 Sqoop 命 令 行 参数 





可 以 调整 下 面 的 Sqoop 参 数 优 化 性 能 。 
e batch 
该 参数 的 语法 是 --batch， 指 示 使 用 批 处 理 模 式 执 行 压 层 的 SQL 语 


。 在 导出 数据 时 ， 该 参数 能 够 将 相关 的 SQL 语句 组 合 在 一 起 批量 执 
。 也 可 以 使 用 有 效 的 API 在 JDBC 接 口中 配置 批 处 理 参数 。 


cn A 


e boundary-query 


虽 定 导入 数据 的 范围 值 。 当 仅 使 用 splitr-by 参 数 指定 的 分 隔 列 不 是 最 
优 时 ， 可 以 使 用 boundary-query 参 数 指定 任意 返回 两 个 数字 列 的 查询 。 
它 的 语法 如 下 : --boundary-query select min(id), max(id) from 





<tablename> 。 在 配置 boundary-query 参 数 时 ， 碍 询 语句 中 必须 连同 表 名 
一 起 指定 min(id) 和 max(id)。 如 果 没 有 配置 该 参数 ， 默 认 时 Sqoop 使 用 
select min(<split-by>), max(<split-by>) from <tablename> 查 询 找 出 分 隔 列 


的 边界 值 。 
e direct 


该 参数 的 语法 是 --direct， 指 示 在 导入 数据 时 使 用 关系 数据 库 自 带 的 
TAH GREENE) ， 如 MySQL 的 mysqlimport。 这 样 可 以 比 jdbc 连 接 
的 方式 更 为 高 效 地 将 数据 导入 到 关系 数据 库 中 。 


e Dsqoop.export.records.per.statement 


在 导出 数据 时 ， 可 以 将 Dsqoop.export.records.per.statement 参 数 与 批 
处 理 参 数 结合 在 一 起 使 用 。 该 参数 指示 在 一 条 insert 语 句 插 入 的 行 数 。 
当 指 定 了 这 个 参数 时 ，Sqoop 运 行 下 面 的 插入 语句 : INSERT INTO table 
VALUES(...),(..…),(.…),…; 某 些 情 况 下 这 可 以 提升 近 一 倍 的 性 能 。 


e fetch-size 


导入 数据 时 ， 指 示 每 次 从 数据 库 读 取 的 记录 数 。 使 用 下 面 的 语 
法 : --fetch-size=<n>， 其 中 <n> 表 示 Sqoop 每 次 必须 取 回 的 记录 数 ， 默 认 
值 为 1000。 可 以 基于 读 取 的 数据 量 、 可 用 的 内 存 和 带宽 大 小 适当 增加 
fetch-size 的 值 。 某 些 情况 下 这 可 以 提升 25% 的 性 能 。 


e num-mappers 


该 参数 的 语法 为 -num-mappers «number of map tasks>， 用 于 指定 并 
行 数据 导入 的 map 任 务 数 ， 默 认 值 为 4。 应 该 将 该 值 设置 成 低 于 数据 库 


所 文 持 的 最 大 连接 数 。 
e split-by 


该 参数 的 语法 为 --split-by «column name>， 指 定 用 于 Sqoop 分 隔 工作 
单元 的 列 名 ， 不 能 与 --autoreset-to-one-mapper 选 项 一 起 使 用 。 如 果 不 指 
定 列 名 ，Sqoop 基 于 主键 列 分 隔 工 作 单 元 。 


2. 调整 数据 库 
为 了 优化 关系 数据 库 的 性 能 ， 可 执行 下 面 的 任务 : 


e 为 精确 调整 查询 ， 分 析 数 据 库 统计 信息 。 
。 将 不 同 的 表 空 间 存 储 到 不 同 的 物理 人 硬盘 。 
e 预 判 数据 库 的 增长 。 

e 使 用 explain plan 类 似 的 语句 调整 查询 语句 。 
e 导入 导出 数据 时 禁用 外 键 约束 。 

e 导入 数据 前 删除 索引 ， 导 入 完成 后 再 重建 。 
。 优化 JDBC URL 连 接 参数 。 

e 确定 使 用 最 好 的 连接 接口 。 





7.6 ”小结 


C1) 建立 一 个 有 效 的 逻辑 数据 映射 是 实现 ETL 系 统 的 基础 。 

(2) 从 源 抽 取 数 据 导 入 数据 仓库 有 两 种 方式 ， 可 以 从 源 把 数据 抓 
Bude Go ， 也 可 以 请 求 源 把 数据 发 送 〈 推 ) 到 数据 仓库 。 

(35 时 间 戳 、 触 发 器 、 快 照 表 、 日 志 是 常用 的 四 种 变化 数据 捕获 
Jnk. 





(4) 以 文本 文件 的 形式 交换 数据 是 一 种 可 行 的 通用 方法 。 有 多 种 
将 数据 导出 成 文本 文件 的 方式 ， 其 性 能 差别 很 大 。 

(5) 分 布 式 查询 可 以 建立 不 同 的 数据 库 系 统 之 间 的 联系 ， 并 可 作 
为 数据 集成 的 重要 工具 之 一 。 

(6) Sqoop 是 一 个 在 Hadoop 与 结构 化 数据 存储 (如 关系 数据 库 ) 
之 间 高 效 传输 大 批量 数据 的 工具 ， 文 持 全 量 和 增 量 数据 抽取 。 





第 8 章 


<M eR SRM 


本 草 重 点 是 针对 销售 订单 示例 编写 并 测试 HiveQL 转 换 脚 本 。 在 此 
之 前 ， 我 们 先 简要 介绍 一 下 数据 清洗 的 概念 和 常见 的 数据 清洗 工作 。 之 
后 对 Hive 做 一 个 概括 的 介绍 ， 包 括 它 的 体系 结构 、 工 作 流 程 、 命 令 行 和 
安全 性 。 最 后 用 大 量 HiveQL 代 码 演示 如 何 实现 销售 订单 数据 仓库 的 数 
据 转 换 与 装载 。 














8.1 数据 清洗 


对 大 多 数 用 户 来 说 ，ETL 的 核心 价值 在 “IT” 所 代表 的 转换 部 分 。 这 
个 阶段 要 做 很 多 工作 ， 数 据 清 洗 束 是 其 中 一 项 重点 任务 。 数 据 清洗 是 对 
数据 进行 重新 审查 和 校 验 的 过 程 ， 目 的 在 于 删除 重复 信息 、 纠 正 存在 的 
错误 ， 并 提供 数据 一 致 性 。 


1. 处 理 “ 脏 数据 ” 











数据 仓库 中 的 数据 是 面 同 条 一 主题 数据 的 集合 ， 这 些 数据 从 多 个 业 
务 系统 中 抽取 而 来 ， 并 且 包 含 历史 数据 ， 因 此 就 不 可 避免 地 出 现 茶 些 数 
据 是 错误 的 ， 或 者 数据 相互 之 间 存 在 冲突 的 情况 。 这 些 错误 的 或 有 冲突 
的 数据 显然 不 是 我 们 想 要 的 ， 被 称 为 " 脏 数 据 ?。 我 们 要 按照 一 定 的 规则 
处 理 及 数据 ， 这 个 过 程 就 是 数据 清洗 。 数 据 清 洗 的 任务 是 过 小 那些 不 符 
合 要 求 的 数据 ， 将 过 滤 的 结果 交 给 业务 主管 部 门 ， 确 认 是 直接 删除 掉 ， 
还 是 修正 之 后 再 进行 抽取 。 不 符合 要 求 的 数据 主要 是 残缺 的 数据 、 错 误 
的 数据 、 重 复 的 数据 、 差 异 的 数据 四 大 类 。 











e 残缺 数据 。 这 一 类 数据 主要 是 一 些 应 该 有 的 信息 缺失 ， 如 产品 名 
称 、 客 户 名 称 、 客 户 的 区 域 信息 ， 还 包括 业务 系统 中 由 于 缺少 外 
键 约束 所 导致 的 主 表 与 明细 表 不 能 匹配 等 。 

e 错误 数据 。 这 一 类 错误 产生 的 原因 多 是 业务 系统 不 够 健全 ， 在 接 
收 输入 后 没有 进行 合法 性 检查 或 检查 不 够 严格 ， 将 有 问题 的 数据 
直接 写 入 后 台数 据 库 造成 的 ， 比 如 用 字符 串 存 储 数 字 、 超 出 合法 
的 取 值 范围 、 日 期 格式 不 正确 、 日 期 越界 等 。 

。 重复 数据 。 源 系统 中 相同 的 数据 存在 多 份 。 

e 差异 数据 。 本 来 具有 同一 业务 含义 的 数据 ， 因 为 来 自 不 同 的 操作 
型 数据 源 ， 造 成 数据 不 一 致 。 这 时 需要 将 非 标准 的 数据 转化 为 在 
一 定 程度 上 的 标准 化 数据 。 

来 自 操作 型 数据 源 的 数据 如 果 含 有 不 洁 成 分 或 不 规范 的 格式 ， 将 对 
数据 仓库 的 建立 和 维护 ， 特 别 是 对 联机 分 析 处 理 的 使 用 ， 造 成 很 多 问题 
和 麻烦 。 这 时 必须 在 ETL 过 程 中 加 以 处 理 ， 不 同类 型 的 数据 ， 处 理 的 方 
式 也 不 尽 相 同 。 对 于 残缺 数据 ，ETL 将 这 类 数据 过 滤 出 来 ， 按 缺失 的 内 
容 向 业务 数据 的 所 有 者 提交 ， 要 求 在 规定 的 时 间 内 补 全 ， 之 后 才 写 入 数 
据 仓库 。 对 于 错误 数据 ， 一 般 的 处 理 方式 是 通过 数据 库 查 询 的 方式 找 出 
来 ， 并 将 脏 数据 反馈 给 业务 系统 用 户 ， 由 业务 用 户 确定 是 抛弃 这 些 数 
据 ， 还 是 修改 后 再 次 进行 抽取 ， 修 改 的 工作 可 以 是 业务 系统 相关 人 员 配 
合 ETL 开 发 者 来 完成 。 对 于 重复 数据 的 处 理 ，ETL 系 统 本 身 应 该 具有 上 自 
动 查 重 去 重 的 功能 。 而 差异 数据 ， 则 需要 协调 ETL 开 发 者 与 来 自 多 个 不 
同业 务 系 统 的 人 员 共 同 确认 参照 标准 ， 然 后 在 ETL 系 统 中 建立 一 系列 必 
要 的 方法 和 手段 实现 数据 一 致 性 和 标准 化 。 


2. 数据 清洗 原则 


保障 数据 清洗 处 理 顺 利 进 行 的 原则 是 优先 对 数据 清洗 处 理 流程 进行 
分 析 和 系统 化 的 设计 ， 针 对 数据 的 主要 问题 和 特征 ， 设 计 一 系列 数据 对 









































照 表 和 数据 清洗 程序 库 的 有 效 组 合 ， 以 便 面 对 不 断 变化 的 、 形 形 色 色 的 
数据 清洗 问题 。 数 据 清洗 流程 通常 包括 如 下 内 容 。 


。 预 处 理 。 对 于 大 的 数据 加 载 文件 ， 特 别 是 新 的 文件 和 数据 集合 ， 
要 进行 预先 诊断 和 检测 ， 不 能 贸然 加 载 。 有 时 需要 临时 编写 程序 
进行 数据 清洁 检查 。 

标准 化 处 理 。 应 用 建 于 数据 仓库 内 部 的 标准 字典 ， 对 于 地 区 名 、 
人 和 名、 公司 名 、 产 品名 、 分 类 名 以 及 各 种 编码 信息 进行 标准 化 处 
I 


。 应 用 各 种 数据 库 查 询 技 术 和 和 手段， 避免 引入 重复 数据 ; 
和 将 出 错 的 记录 和 数据 写 入 到 日 志文 件 ， 留 待 进 
一 步 处 理 。 


3. 数据 清洗 实例 


(1) 号 份 证 号 码 格式 检查 








号 份 证 号 码 格式 校 验 是 很 多 系统 在 数据 集成 时 的 一 个 常见 需求 ， 我 
们 以 18 位 身份 证 为 例 ， 使 用 一 个 Hive 碍 询 实现 身份 证 号 码 的 合法 性 验 
证 。 该 得 询 结果 是 所 有 不 合 规 的 身份 证 号 码 。 按 以 下 身份 证 号 码 的 定义 
规则 建立 和 查询。 


喘 份 证 18 位 分 别 代表 的 含义 ， 从 大 到 右 方 分 别 表示 : 





e 1 一 2， 省 级 行政 区 代码 。 

。 3 一 4， 地 级 行政 区 划分 代码 。 

e 5 一 6， 县 区 行政 区 分 代码 。 

e 7 一 10、11 一 12、13 一 14， 出 生年 、 月 、 日 。 

e 15 一 17， 顺 序 码 ， 同 一 地 区 同年 、 同 月 、 同 日 出 生 人 的 编号 ， 奇 
数 是 男性 ， 偶 数 是 女性 。 


e 18 校 验 码 ， 如 果 是 0 一 9 则 用 0 一 9 表示 ， 如 果 是 10 则 用 又 〈 罗 马 数 
字 10) 表示 。 


号 份 证 校 验 码 的 计算 方法 : 


步骤 01 将 前 面 的 身份 证 号 码 17 位 数 分 别 乘 以 不 同 的 系数 。 从 第 1 位 
到 第 17 位 的 系数 分 别 为 7 一 9 一 10 一 5 一 8 一 4 一 2 一 1 一 6 一 3 一 7 一 9 
一 10 一 5 一 8 一 4 一 2。 

步骤 02 4 将 这 17 位 数字 和 系数 相 乘 的 结果 相 加 。 

步骤 034 用 加 出 来 和 除 以 11， 看 余数 是 多 少 。 

步骤 04 余数 只 可 能 有 0 一 1 一 2 一 3 一 4 一 5 一 6 一 7 一 8 一 9 一 10 这 11 个 
数字 。 其 分 别 对 应 的 最 后 一 位 里 份 证 的 号 人 码 为 1 一 0 一 X 一 9 一 8 一 7 
一 6 一 5 一 4 一 3 一 2。 





假设 字段 Lidcard 存 储 身 份 证 号 码 ，Hive 查 询 语句 如 下 : 


- Hive 18 位 身份 证 号 码 验 证 
select * from 














(select trim(upper 


(idcard)) idcard from 


E) gil 
where 


- 号 码 位 数 不 正确 
length 


(idcard) «» 18 
-- AMMSTBASIER 


or substr 


(idcard,1,2) not in 








ZH 














CMe 12-9 pq ac NO DA Sid. 
toad COS esq gb BO aes adis ddqe tee qug 
"aqu AS AO! SO ls ee Oe ye OO spe D4 pq 
"o2 Oo Od OS eru ols 2 Olt) 
-- 身份 证 号 码 的 正则 表达 式 判 断 
or 
(if 
(pmod(cast(substr( 
idcard, 7, 4) as int) 
,400) = 0 or 
(pmod(cast(substr 


(idcard, 


7, 4) as int) 


,100) «» 0 and 


pmod(cast(substr 
(idcard, 7, 4) as int) 


,4) = 9), pur 国 年 
if 


(idcard regexp '^[1-9][0-9][5319[0-9](21((01|03]|05|07]|08 |10|12)( 
9]|3[0-1])|(04|066|09|11)(0[1-9]| [1-2] [6-9] |30) |G2(0[1-9] | [1-2] [0 
if 


(idcard regexp '4[1-9][0-9]{5}19[0-9]{2}((01|03|05|07|08|10|12) ( 
9]|3[90-1])]|(04|06]09/11)(0[1-9]| [1-2] [0-9]|30)|]02(0[1-9] | 3[0-9] | 
9X]$',1,0))) = 0 
-- 校 验 位 不 正确 
or substr 














('10X98765432' , pmod( 
(cast(substr( 


idcard,1,1) as int)-*cast(substr( 


idcard,11,1) as int))* 


7 
*(cast(substr( 


idcard,2,1) as int)+cast(substr ( 


idcard,12,1) as int))* 


9 
*(cast(substr( 


idcard,3,1) as int)-*cast(substr( 


idcard,13,1) as int))* 


10 
*(cast(substr( 


idcard,4,1) as int)+cast(substr ( 


idcard,14,1) as int))* 


5 
*(cast(substr( 


idcard,5,1) as int)-*cast(substr( 


idcard,15,1) as int))* 


8 
*(cast(substr( 


idcard,6,1) as int)-*cast(substr( 


idcard,16,1) as int))* 


4 
*(cast(substr( 


idcard,7,1) as int)+cast(substr ( 


idcard,17,1) as int))* 


2 
*cast(substr( 


idcard, 8,1) as int)* 


1 
*cast(substr( 


idcard, 9,1) as int)* 


6 
*cast(substr( 


idcard,10,1) as int)* 


3,11)+1,1) 
<> cast(substr( 


idcard,18,1) as int) 


这 条 得 询 语句 虽然 有 些 复杂 ， 但 条 理 还 是 比较 清楚 的 。 子 查询 将 字 
符 串 转 为 大 写 ， 并 去 邱 左 右 两 边 的 空格 ， 外 层 碍 询 的 where 条 件 第 选 出 
四 种 不 符合 规则 的 映 份 证 号 码 。 首 先 判 断 写 码 长 度 和 省 份 代 码 ， 然 后 利 
用 Hive 的 正则 表达 式 匹 配 函 数 对 整个 号 码 逐 位 判断 ， 最 后 检查 校 验 位 是 
人 否 正 确 。 各 种 违规 条 件 之 间 使 用 or 逻辑 运算 符 ， 前 面 的 条 件 一 旦 满足 即 
可 返回 数据 行 ， 而 不 会 再 继续 判断 后 面 的 条 件 。 











(20 去 除 重 复数 据 


有 两 个 意义 上 的 重复 记录 ， 一 是 完全 重复 的 记录 ， 也 即 所 有 字段 均 
都 重复 ， 二 是 部 分 字段 重复 的 记录 。 对 于 第 一 种 重复 ， 比 较 容易 解决 ， 
只 需 在 查询 语句 中 使 用 distinct 关 键 字 去 重 ， 儿 乎 所 有 数据 库 系统 都 文 持 
distinct 操 作 。 发 生 这 种 重复 的 原因 主要 是 表 设 计 不 周 ， 通 过 给 表 增 加 主 
键 或 唯一 索引 列 即 可 避免 。 














select distinct * from t; 








对 于 第 二 类 重复 问题 ， 通 常 要 求 但 询 出 重复 记录 中 的 任 一 条 记录 。 
假设 表 ( 有 id、name、address 三 个 字段 ，id 是 主键 ， 有 重复 的 字段 为 





name、address， 要 求 得 到 这 两 个 字段 唯一 的 结果 集 。 


-- Oracle、MySQL， 使 用 相关 子 查 询 
select * from 


t ti 
where 


tingid: = 
(select min 


(t2.id) 
from 


iG i572 
where 


ti.name = t2.name and 


ti.address = t2.address); 


-- Hive 只 文 持 在 FROM 子 句 中 使 用 子 查 询 ， 子 查询 必须 有 名 字 ， 并 且 列 必须 唯一 


select 





Ld 
from 
Ct 


(select 


name, address, min 


(id) id from 


t group by 


name, address) t2 
where 


tI rdeo-crp? rd) 


-- 还 可 以 使 用 Hive 的 row_number() 分 析 函 数 
select 


t.id, t.name, t.address 
from (select 


id, name, address, 
row number () 


over (distribute by 


name, address sort by 


id) as 


rn 


from 


t)t 
where 


t.rn-1; 
(3) 建立 标准 数据 对 照 表 


这 和 古 一 个 真实 数据 仓库 项 目 中 的 案例 。 东 公司 要 建立 一 个 员工 数据 
仓库 ， 需 要 从 多 个 业务 系统 集成 员工 相关 的 信息 。 由 于 历史 的 原因 ， 该 
公司 现存 的 四 个 业务 系统 中 都 包含 员工 数据 ， 这 四 个 业务 系统 是 HR、 
OA、 考 勒 和 绩效 考核 系统 。 这 些 系统 是 彼此 独立 的 ， 有 些 是 采购 的 丙 
业 软 件 ， 有 些 是 公司 目 己 开发 的 。 每 个 系统 中 都 有 员工 和 组 织 机 构 表 ， 
存储 员工 编号 、 姓 名、 所 在 部 门 等 属性 ， 各 个 系统 的 员工 数据 并 不 一 
致 。 例 如 ， 员 工 入 职 或 离职 时 ，HR 系 统 会 更 新 员工 数据 ， 但 OA 系统 的 
更 新 可 能 会 沛 后 很 长 时 间 。 项 目的 目标 是 建立 一 个 全 公司 唯一 的 、 一 致 
的 人 员 信 息 库 。 


我 们 的 思路 是 利用 一 系列 经 过 仔细 定义 的 参照 表 或 转换 表 取 代 那 些 
所 谓 硬 编码 的 转换 程序 。 其 优点 是 很 明显 的 : 转换 功能 动态 化 ， 并 能 适 
应 多 变 的 环境 。 对 于 建立 在 许多 不 同 数据 源 之 上 的 数据 仓库 来 说 ， 这 是 
一 项 非常 重要 的 基础 工作 。 具 体 方案 如 下 : 


。 建立 标准 码 表 用 以 辅助 数据 转换 处 理 。 

。 建立 与 标准 值 转化 有 关 的 函数 或 子 程序 。 

。 建立 非 标 准 值 与 标准 值 对 照 的 映像 表 ， 或 者 别名 与 标准 名 的 对 照 
表 。 


下 面 的 问题 是 确定 标准 值 的 来 源 。 从 业务 的 角度 看 ，HR 系 统 的 数 








据 相 对 来 说 是 最 准确 的 ， 因 为 员工 或 组 织 机 构 的 变化 ， 最 先 反 映 到 该 系 
统 的 数据 更 新 中 。 以 HR 系统 中 的 员工 表 数 据 为 标准 是 比较 合适 的 选 
择 。 有 了 标准 值 后 ， 还 要 建立 一 个 映像 表 ， 把 其 他 系统 的 员工 数据 和 标 
准 值 对 应 起 来 。 比 方 说 有 一 个 员工 的 编写 在 HR 系统 中 为 101， 在 其 他 三 
个 系统 中 的 编号 分 别 是 102、103、104， 我 们 建立 的 映像 表 应 该 与 表 8-1 
类 似 。 





表 8-1 标准 值 映像 表 


DW 条 目 名 称 业务 系统 数据 来 源 
[i ug | [i | 








员工 编号 HR 库 . 表 名 . 列 名 
员工 编号 OA 库 . 表 名 . 列 名 
员工 编号 考勤 库 . 表 名 . 列 名 








员工 编号 





这 张 表 建立 在 数据 仓库 的 模式 中 ， 人 员 数 据 从 各 个 系统 抽取 出 来 以 
后 ， 与 标准 值 映像 表 关 联 ， 从 而 形成 统一 的 标准 数据 。 映 像 表 被 其 他 源 
数据 引用 ， 是 数据 一 致 性 的 关键 ， 其 维护 应 该 与 HR 系统 同步 。 因 此 在 
ETL 过 程 中 应 该 首先 处 理 HR 表 和 了 映像 表 。 

数据 清洗 在 实际 ETL 开 发 中 是 不 可 缺少 的 重要 一 步 。 即 使 为 了 降低 
复杂 度 ， 在 我 们 的 销售 订单 示例 中 没有 涉及 数据 清洗 ， 读 者 还 是 应 该 了 
解 相关 内 容 ， 这 会 对 实际 工作 有 所 启发 。 





8.2 Hive 人 简介 


让 我 们 回 到 实践 中 来 。 本 半 开 篇 就 说 明 我 们 要 用 Hive 开 友 销 售 订单 
示例 的 数据 转换 和 装载 过 程 。 在 前 面 的 章节 中 已 经 多 次 进行 了 Hive 试 
验 ， 也 介绍 了 Hive 文 持 的 文件 格式 以 及 如 何 文 持 事务 处 理 。 为 了 能 够 更 
好 地 使 用 Hive 完 成 ETL 工 作 ， 有 必要 系统 了 解 一 下 Hive 的 基本 概念 及 其 
体系 结构 。 


Hive 是 Hadoop 生 态 圈 的 数据 仓库 软件 ， 使 用 类 似 于 SQL 的 语言 读 、 
写 、 管 理 分 布 式 存储 上 的 大 数据 集 。 它 建立 在 Hadoop 之 上 ， 有 具有 以 下 功 
能 和 特点 : 


。 通过 HiveQL 方 便 地 访问 数据 ， 适 合 执行 ETL、 报 表 查 询 、 数 据 分 
析 等 数据 仓库 任务 。 

e 提供 一 种 机 制 ， 给 各 种 各 样 的 数据 格式 添加 结构 。 

。 直接 访问 HDFS 的 文件 ， 或 者 访问 如 HBase 的 其 他 数据 存储 。 

。 可 以 通过 MapReduce、Spark 或 Tez 等 多 种 计算 框架 执行 查询 。 


Hive 提 供 标准 的 SQL 功能 ， 包 括 2003 以 后 的 标准 和 2011 标 准 中 的 分 
析 特 性 。Hive 中 的 SQL 还 可 以 通过 用 户 定义 的 函数 (UDFs〉、 用 户 定 
义 的 聚合 函数 (UDAFs，〉 、 用 户 定 义 的 表 函 数 (UDTFs) 进行 扩展 。 
Hive 内 建 连接 吉文 持 CSV 文 本 文件 、Parquet、ORC 等 多 种 数据 格式 ， 用 
户 也 可 以 扩展 文 持 其 他 格式 的 连接 器 。Hive 被 设计 成 一 个 可 扩展 的 、 高 
性 能 的 、 容 错 的 、 与 输入 数据 格式 松 耘 合 的 系统 ， 适 合 于 数据 仓库 中 的 
汇总 、 分 析 、 批 处 理 查 询 等 任务 ， 而 不 适合 联机 事务 处 理 的 工作 场景 。 
Hive 包 括 HCatalog 和 WebHCat 两 个 组 件 。HCatalog 是 Hadoop 的 表 和 存储 
管理 层 ， 人 允许 使 用 Pig 和 MapReduce 等 数据 处 理工 具 的 用 户 更 容易 读 写 集 
群 中 的 数据 。WebHCat 提 供 了 一 个 服务 ， 可 以 使 用 HTTP 接 口 执行 
MapReduce (或 YARN) 、Pig、Hive 作 业 或 元 数据 操作 。 





8.2.1 Hive 的 体系 结构 
Hive 的 体系 结构 如 图 8-1 所 示 。 
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图 8-1 Hive 体 系 结构 





Hive 建 立 在 Hadoop 的 分 布 式 文件 系统 (HDFS)〉 和 MapReduce 之 
上 。 上 图 中 显示 了 Hadoop 1 和 Hadoop 2 中 的 两 种 MapReduce 组 件 。 在 
Hadoop ”1 中 ，Hive 查 询 被 转化 成 MapReduce 代 码 ， 并 且 使 用 第 一 版 的 
MapReduce 框 架 执 行 ， 如 JobTracker 和 TaskTracker。 在 Hadoop 2 中 ， 
YARN 将 资源 管理 和 调度 从 MapReduce 框 架 中 解 耦 。Hive 查 询 仍然 被 转 
化 为 MapReduce 代 码 并 执行 ， 但 使 用 的 是 YARN 框 架 和 第 二 版 的 
MapReduce. 


为 了 更 好 地 理解 Hive 如 何 与 Hadoop 的 基本 组 件 一 起 协同 工作 ， 可 以 
把 Hadoop 看 作 一 个 操作 系统 ，HDFS 和 MapReduce 是 这 个 操作 系统 的 组 
成 部 分 ， 而 像 Hive、HBase 这 些 组 件 ， 则 是 操作 系统 的 上 层 应 用 或 功 
能 。Hadoop 生 态 圈 的 通用 底层 架构 是 HDFS 提 供 分 布 式 存储 ， 
MapReduce 为 上 层 功能 提供 并 行 处 理 能 








在 HDFS 和 MapReduce 之 上 ， 图 中 显示 了 Hive 驱 动 程序 和 元 数据 存 
储 。Hive 驱 动 程序 及 其 编译 器 负 员 编译 、 优 化 和 执行 HiveQL。 依 赖 于 
具体 情况 ，Hive 驱 动 程序 可 能 选择 在 本 地 执行 Hive 语 句 或 命令 ， 也 可 能 
是 产生 一 个 MapReduce 作 业 。Hive 驱 动 程序 把 元 数据 存储 在 数据 库 中 。 


默认 配置 下 ，Hive 在 内 建 的 Derby 关 系数 据 库 系统 中 存储 元 数据 ， 
这 种 方式 被 称 为 坐 入 模式 。 在 这 种 模式 下 ，Hive 驱 动 程序 、 元 数据 存储 
和 Derby 全 部 运行 在 同一 个 Java 虚 拟 机 中 (JVM) 。 这 种 配置 适合 于 学 
习 目 的 ， 它 只 支持 单一 Hive 会 话 ， 所 以 不 能 用 于 多 用 户 的 生产 环境 。 
Hive 还 允许 将 元 数据 存储 于 本 地 或 远程 的 外 部 数据 库 中 ， 这 种 设置 可 以 
更 好 地 支持 Hive 的 多 会 话 生 产 环境 。 并 且 ， 可 以 配置 任何 与 JDBC API 
兼容 的 关系 数据 库 系 统 存储 元 数据 ， 如 MySQL、Oracle 等 。 

对 应 用 支持 的 关键 组 件 是 Hive Thrift 服 务 ， 它 允许 一 个 富 客户 端 访 
问 Hive， 开 源 的 SQuirreL SQL 客户 端 被 作为 示例 包含 其 中 。 任 何 与 
JDBC 兼 容 的 应 用 ， 都 可 以 通过 绑 定 的 JDBC 驱 动 访问 Hive。 与 ODBC 兼 
容 的 客户 端 ， 如 Linux 下 上 典型 的 unixODBC 和 isqgl 应 用 程序 ， 可 以 从 远程 
Linux 客 户 端 访问 Hive。 如 果 在 客户 端 安 冯 了 相应 的 ODBC 驱 动 ， 甚至 可 
以 从 微软 的 Excel 访 问 Hive。 通 过 Thrift 还 可 以 用 Java 以 外 的 程序 语言 ， 
如 PHP 或 Python 访问 Hive。 就 像 JDDBC、ODBC 一 样 ，Thrift 客 户 端 通过 
Thrifthk 4 45 V7 [A] Hive . 

架构 图 的 最 上 面包 括 一 个 命令 行 接口 CCLD. ， 可 以 在 Linux 终 端 窗 


口 回 Hive 张 动 程 序 直 接 发 出 查询 或 管理 命令 。 还 有 一 个 简单 的 Web 界 
面 ， 通 过 它 可 以 从 浏览 器 访问 Hive 管 理 表 及 其 数据 。 














8.2.2 ”Hive 的 工作 流程 





从 接收 到 从 命令 行 或 是 应 用 程序 发 出 的 查询 命令 ， 到 把 结果 返回 给 
用 户 ， 期 间 Hive 的 工作 流程 〈 第 一 版 的 MapReduce) 如 图 8-2 所 示 。 


表 8-2 说 明 Hive 如 何 与 Hadoop 的 基本 组 件 进行 交互 。 从 中 不 难看 
出 ，Hive 的 执行 过 程 与 关系 数据 库 的 非常 相似 ， 只 不 过 是 使 用 分 布 式 计 
算 框架 来 实现 。 





图 8-2 Hive TEA 


表 8-2 Hive 执行 流程 














5m 
1 执行 查询 
从 Hive 的 CLI EX Web UI 发 查询 命令 给 驱动 程序 〈 任 何 JDBC、ODBC 数据 库 驱 动 ) 执行 
2 获得 计划 
驱动 程序 请 求 查 询 编译 器 解析 查询 、 检 查 语法 、 生 成 查询 计划 或 者 查询 所 需要 的 资源 
3 获取 元 数据 
编译 器 向 元 数据 存储 数据 库 发 送 元 数据 请 求 
4 发 送 元 数据 
作为 响应 ， 元 数据 存储 数据 库 向 编译 器 发 送 元 数据 
5 发 送 计划 
编译 器 检查 需要 的 资源 ， 并 把 查询 计划 发 送 给 驱动 程序 。 至 此 ， 查 询 解析 完成 
6 执行 计划 
驱动 程序 向 执行 引擎 发 送 执行 计划 
7 执行 作业 
执行 计划 的 处 理 是 一 个 MapReduce 作业 。 执 行 引 擎 向 Name node 上 的 JobTracker 进程 发 送 作业 ， 
JobTracker 把 作业 分 配给 Data node 上 的 TaskTracker 进程 。 此 时 ， 查 询 执 行 MapReduce 作业 
7.1 操作 元 数据 
执行 作业 的 同时 ， 执 行 引擎 可 能 会 执行 元 数据 操作 ， 如 DDL 语句 等 
8 取 回 结果 
执行 引擎 从 Data node 接收 结果 
9 发 送 结果 
执行 引擎 向 驱动 程序 发 送 合成 的 结果 值 
10 发 送 结果 
驱动 程序 向 Hive 接口 〈CLI 或 Web UD. 发 送 结果 
8.23 ”Hive 服 务 器 


我 们 在 5.2 节 中 已 经 提 到 过 Hive 有 HiveServer 和 HiveServer2 两 版 服务 
器 ， 并 指出 了 两 个 版 本 的 主要 区 别 ， 这 里 再 对 HiveServer2 做 一 些 深入 的 
补充 说 明 。 

HiveServer 2 后 面 简称 HS2)〉 是 从 Hive 0.11 版 本 开始 引入 的 ， 它 提 
供 了 一 个 服务 器 接口 ， 人 允许 客户 端 在 Hive 中 执行 查询 并 取 回 得 询 结果 。 
当前 的 实现 是 一 个 HiveServer 的 改进 版 本 ， 它 基于 Thrift RPC， 文 持 多 客 
户 端 身份 认证 和 并 发 操作 ， 其 设计 对 JDBC、ODBC 这 样 的 开放 API 客 户 





端 提供 了 更 好 的 文 持 。 
HS2 使 用 单一 进程 提供 两 种 服务 ， 分 别 是 基于 Thrift 的 Hive 服 务 和 一 
个 Jetty Web 服 务 器 。 基 于 Thrift 的 Hive 服 务 是 HS2 的 核心 ， 它 对 Hive 查 询 
《例如 从 Beeline 里 发 出 的 查询 语句 ， 下 一 小 节 会 详细 介绍 ) 做 出 啊 应 。 
Thrift 是 提供 跨 平 台 服 务 的 RPC 框 架 ， 人 允许 客户 端 使 用 包括 Java、 
C++、Ruby 和 其 他 很 多 语言 ， 通 过 编程 的 方式 远程 访问 Hive。 它 由 服务 
器 、 传 输 、 协 议和 处 理 器 四 层 组 成 。 





服务 器 。 对 于 TCP 请 求 ，HS2 使 用 Thrift 中 的 TthreadPoolServer 服 
务 器 提供 响应 ， 对 于 HTTP 请 求 ， 会 通过 Jetty 服 务 器 做 出 响应 。 
TThreadPoolServer 会 为 每 个 TCP 连 接 分 配 一 个 工作 线程 ， 该 线程 
和 相关 的 连接 绑 定 在 一 起 ， 即 便 是 空 连接 也 会 分 配 一 个 线程 。 如 
果 因 并 发 连接 过 多 使 得 线程 数 太 大 ， 会 有 潜在 的 性 能 问题 。 未 来 
的 HS2 会 可 能 为 TCP 请 求 提供 其 他 类 型 的 服务 器 ， 例 如 
TThreadedSelectorServer. 

传输 。 有 TCP 和 HTTP 两 种 传输 模式 。 如 果 在 客户 器 和 服务 器 之 
间 存 在 代理 服务 器 (如 因为 负载 均衡 或 安全 方面 的 需要 ) ， 那 么 
只 能 通过 HTTP 模 式 访问 Hive。 这 也 就 是 HS2 除 了 TCP 方 式 外 ， 还 
支持 HTTP 的 原因 。 可 以 使 用 hive.server2.transport.mode 配 置 参数 
指定 Thrift 服 务 的 传输 模式 。 

协议 。 协 议 的 实现 是 为 了 进行 序列 化 和 反 序 列 化 。HS2 当 前 使 用 
TBinaryProtocol 作 为 它 的 Thrift 序 列 化 协议 。 将 来 可 能 会 基于 性 能 
评估 考虑 其 他 协议 ， 如 TCompactProtocol。 

处 理 器 。 负 责 处 理应 用 逻辑 的 请 求 ， 例 如 ， 
ThriftCLIService.ExecuteStatement() 方 法 实现 编译 和 执行 Hive 查 询 
的 逻辑 。 











Hive 通 过 Thrift 提 供 Hive 元 数据 存储 的 服务 。 通 常 来 说 ， 用 户 不 能 








够 调用 元 数据 存储 方法 来 直接 对 元 数据 进行 修改 ， 而 应 该 通过 HiveQL 
语言 让 Hive 来 执行 这 样 的 操作 。 用 户 应 该 只 能 通过 只 读 方式 来 获取 表 的 
元 数据 信息 。 在 5.6 节 我 们 配置 了 SparkSQL 通 过 HS2 服 务 访问 Hive 的 元 数 
据 。 








1. 配置 HS2 


不 同 版 本 的 HS2， 配 置 属性 可 能 会 有 所 不 同 。 最 基本 的 配置 是 在 
hive-site.xml 文 件 中 设置 如 下 属性 : 


e hive.server2.thrift.min.worker.threads: 默认 值 是 5， 最 小 工作 线程 
数 。 

e hive.server2.thrift.max.worker.threads: 默认 值 是 500， 最 大 工作 线 
程 数 。 

e hive.server2.thrift.port: 默认 值 是 10000， 监 听 的 TCP 端 口号 。 

e hive.server2.thrift.bind.host: TCP 接 口 绑 定 的 主机 。 


除了 在 hive-site.xml 配 置 文件 中 设置 属性 ， 还 可 以 使 用 环境 变量 设 
置 相关 信息 。 环 境 变 量 的 优先 级 别 要 高 于 配置 文件 ， 相 同 的 属性 如 果 在 
环境 变量 和 配置 文件 中 都 有 设置 ， 则 会 使 用 环境 变量 的 设置 ， 就 是 说 环 
境 变量 或 履 善 掉 配 置 文件 里 的 设置 。 可 以 配置 如 下 环境 变量 : 

















e HIVE SERVER2 THRIFT BIND HOST: 用 于 指定 TCP 接 口 绑 定 
的 主机 。 

e HIVE SERVER2, THRIFT PORT: 指定 监听 的 TCP 端 口号 ， 默 认 
值 是 10000。 


HS2 支 持 通过 HTTP 协 议 传 输 Thrift RPC 消 息 (Hive 0.13 以 后 的 版 
本 ) ， 这 种 方式 特别 用 于 文 持 客户 端 和 服务 器 之 间 存 在 代理 层 的 情况 。 
当前 HS2 可 以 运行 在 TCP 模 式 或 HTTP 模 式 下 ， 但 是 不 能 同时 使 用 两 种 模 





式 。 使 用 下 面 的 属性 设置 局 用 HTTP 模 式 : 


hive.server2.transport.mode: 默认 值 是 binary， 设 置 为 http 局 用 
HTTP 传 输 模 式 。 

hive.server2.thrift.http.port: 默认 值 是 10001， 监 听 的 HTTP 诺 口 
Fo 

hive.server2.thrift.http.max.worker.threads: 默认 值 是 500， 服 务 器 
池 中 的 最 大 工作 线程 数 。 
hive.server2.thrift.http.min.worker.threads: 默认 值 是 5， 服 务 器 池 
中 的 最 小 工作 线程 数 。 


可 以 配置 hive.server2.global.init.file.location 属 性 指定 一 个 全 局 初始 
化 文件 的 位 置 (Hive ”0.14 以 后 版 本 ) ， 它 或 者 是 初始 化 文件 本 号 的 路 
径 ， 或 者 是 一 个 名 为 “hiverc” 的 文件 所 在 的 目录 。 在 这 个 初始 化 文件 中 
可 以 包含 的 一 系列 命令 ， 这 些 命 令 会 在 HS2 实 例 中 运行 ， 例 如 注册 标准 
的 JAR 包 或 函数 等 。 

如 下 参数 配置 HS2 的 操作 日 志 : 





hive.server2.logging.operation.enabled: 默认 值 是 tue， 当 设置 为 
true 时 ，HS2 会 保存 对 客户 端的 操作 日 志 。 
hive.server2.logging.operation.log.location: 默认 值 是 
${java.io.tmpdir}/${user.name}/operation_logs， 指 定 存 储 操 作 日 志 
的 顶级 目录 。 

hive.server2.logging.operation.verbose: 默认 值 是 false， 如 果 设 置 
为 tue，HS2 客 户 并 将 会 打印 详细 信息 。 
hive.server2.logging.operation.level: 默认 值 是 EXECUTION， 该 值 
允许 在 客户 端的 会 话 级 进行 设置 。 有 四 种 日 志 级 别 ，NONE 忽 略 
任何 日 志 ; EXECUTION 记 录 完 整 的 任务 日 志 ; PERFORMANCE 
在 EXECUTION 加 上 性 能 日 志 ; VERBOSE 记 录 全 部 日 志 。 


默认 情况 下 ，HS2 以 连接 服务 器 的 用 户 的 号 份 处 理 查询 ， 但 是 如 果 
将 下 面 的 属性 设置 为 false， 那 么 查询 将 以 运行 HS2 进 程 的 用 户 吴 份 执 
行 。 当 遇 到 无 法 创建 临时 表 一 类 的 错误 时 ， 可 以 尝试 设置 此 属性 : 


e hive.server2.enable.doAs: 作为 连接 用 户 的 身份 ， 默 认 值 为 true。 


为 了 避免 不 安全 的 内 存 淤 出 ， 可 以 通过 将 以 下 参数 设置 为 tue， 茶 
用 文件 系统 缓存 : 


e fs.hdfs.impl.disable.cache: 禁用 HDFS 绥 存 ， 默 认 值 为 false。 
e fs.file.impl.disable.cache: 禁用 本 地 文件 系统 缓存 ， 默 认 值 为 


false。 
2. 启动 HS2 


下 面 两 条 命令 都 可 以 用 于 局 动 HS2: 


$HIVE HOME/bin/hiveserver2 
$HIVE HOME/bin/hive --service hiveserver2 


3. 临时 目录 管理 


HS2 人 允许 配置 临时 目录 ， 这 些 目录 被 Hive 用 于 存储 中 间 临 时 输出 。 
临时 目录 相关 的 配置 属性 如 下 。 


e hive.scratchdir.lock: 默认 值 是 false。 如 果 设 置 为 tue， 临 时 日 录 
中 会 持 有 一 个 锁 文 件 。 如 果 一 个 Hive 进 程 异常 挂 挥 ， 可 能 会 遗留 
下 挂 起 的 临时 目录 。 使 用 cleardanglingscratchdir 工 具 能 够 删除 挂 
起 的 临时 目录 。 如 果 此 参数 为 false， 则 不 会 建立 锁 文 件 ， 
cleardanglingscratchdir 工 具 也 不 能 删除 任何 挂 起 的 临时 目录 。 

e hive.exec.scratchdir: 指定 Hive 作 业 使 用 的 临时 空间 目录 。 该 目录 


用 于 存储 为 查询 产生 的 不 同 map 上 reduce 阶段 计划 ， 也 存储 这 些 阶 
段 的 中 间 输 出 。 

e hive.scratch.dir.permission: 默认 值 是 700。 指 定 特定 用 户 对 根 临 
时 目录 的 权限 。 

e hive.start.cleanup.scratchdir: 默认 值 是 false。 指 定 是 否 在 启动 HS2 
时 清除 临时 目录 。 在 多 用 户 环境 下 不 使 用 该 属性 ， 因 为 可 能 会 删 
除 正 在 使 用 的 临时 目录 。 











4. HS2 的 Web 用 户 界 面 (Hive2.0.0 引 入 ) 


HS2 的 Web 界 面 提 供 配置 、 日 志 、 度 量 和 活跃 会 话 等 信息 ， 其 使 用 
的 默认 端口 是 10002。 可 以 设置 hive-site.xml 文 件 中 的 
hive.server2.webui.host、 hive.server2.webui.port、 
hive.server2.webui.max.threads 等 属性 配置 Web 接 口 。Web 界 面 如 图 8-3 所 


ZN o 





“3. 


HiveServer2 


Active Sessions 
User Name IP Address Operation Count Active Time (s) Idle Time (s) 
anonymous 127.0.0.1 1 99 3 


Total number of sessions: 1 


Queries 
User Name Query State Elapsed Time (s) 
anonymous select count(*) from store sales join store on ss. store sk = s store sk RUNNING 6 


Total number of queries: 1 


Software Attributes 





Attribute Name Value Description 

Hive Version 2.0.0-SNAPSHOT, rd4oba26021cfcc47ab5cd7519664boa271469a3f Hive version and revision 

Hive Compiled Thu Nov 19 08:08:09 PST 2015, jxiang When Hive version was compiled and by whom 
HiveServer2 Start Time Thu Nov 19 08:15:49 PST 2015 Date stamp of when this HiveServer2 was started 





图 8-3 ”HiveServer2 的 Web 界 面 


5. 查看 Hive 版 本 

Hive 没 有 提供 --version 命 令 行 参 数 或 者 version() 函 数 的 方式 查看 版 本 
号 。 可 以 使 用 两 种 方法 查看 Hive 版 本 。 

(1) 要 找到 Hive 安 装 目录 ， 然 后 查看 jar 包 的 版 本 号 。 


[root@cdhi~ ]|Zls /opt/cloudera/parcels/CDH-5.7.0/1lib/hive/lib | í 
hive-hwi-1.1.0-cdh5.7.0.jar 

hive-hwi.jar 

[root@cdh1i~ ]# 


(2) 查询 元 数据 存储 数据 库 的 version 表 ， 例 如 从 MySQL 中 执行 的 
查询 和 结果 如 下 。 


mysql> select * from hive.version; 


二 -一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| VER ID | SCHEMA VERSION | VERSION COMMENT | 
4-------- + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| E et Re | Hive release version 1.1.0 | 
+ 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


row in set (0.00 sec) 


8.244 Hive% È ùi 





Hive 最 初 的 形式 是 一 个 重量 级 的 命令 行 工 具 ， 它 接收 查询 指令 并 利 
用 MapReduce 执 行 查 询 。 后 来 Hive 采 用 了 客户 端 -服务 器 模式 ， 
HiveServer〈 简 称 HS1) 作为 服务 堪 端 ， 负 责 将 和 查询 语句 编译 成 
MapReduce 作 业 ， 并 监控 它们 的 执行 。 而 Hive CLI Chive shell 命 令 ) 是 
一 个 命令 行 接 口 ， 负 责 接 收 用 户 的 HiveQL 语 句 ， 并 传送 到 服务 器 。 


Hive 社 区 在 0.11 版 中 引入 了 HS2， 并 推荐 使 用 新 的 Beeline 命 令 行 接 
O (beeline shell 命 令 ) , HS1/&KHive CLI 不 再 建议 使 用 ， 甚 至 过 时 的 
Hive ”CLI 客户 端 方案 以 后 可 能 将 不 能 与 HS2 一 起 使 用 。 下 面 重点 介绍 
Beeline 客 户 端 ， 在 本 小 节 最 后 说 明 Hive CLI 和 Beeline 用 法 上 的 主要 差 
别 。 





Beeline 是 为 与 新 的 Hive 服 务 器 进行 交互 而 特别 开发 的 。 与 Hive CLI 
不 同 ，Beeline 不 是 基于 Thrift 的 客户 端 ， 而 是 一 个 基于 SQLLine CLIK 
JDBC 客 户 端 ， 尽 管用 于 和 HS2 通 信 的 JDBC 张 动 程序 还 是 使 用 的 Thrift 
API。Beeline 有 网 入 和 远程 两 种 操作 模式 。 在 艇 入 模式 中 ， 它 运行 一 个 
敬 入 的 类 似 于 hive 的 shell 命 令 ;， 而 在 远程 模式 中 ， 它 通过 Thrift 服 务 连接 
一 个 分 离 的 HS2 进 程 。 从 Hive 0.14 开 始 ， 当 Beeline 与 HS2 联 合 使 用 时 ， 
还 会 在 交互 式 查询 中 打印 很 长 的 HS2 消 息 信 息 。 生 产 系 统 推荐 使 用 远程 
HS2 模 式 ， 因 为 它 更 安全 ， 不 需要 授予 用 户 直接 访问 HDFS 或 元 数据 存 
储 的 权限 。 

















1. Beeline 命 今 


$HIVE_HOME/bin/beeline 这 个 shell 命 令 ( 后 面 简称 为 beeline〉 用 于 
连接 Hive 服 务 器 。 假 定 已 经 将 $HIVE_HOMEbin 加 入 到 环境 变量 PATH 
中 ， 则 只 需要 在 shell 提 示 符 中 输入 beeline， 就 可 以 使 用 户 的 shell 环 境 如 
bash 找 到 这 个 命令 。 下 面 是 在 示例 环境 CDH 5.7.0 中 的 一 个 例子 : 


[root@cdh1~] #beeline 

Beeline version 1.1.0-cdh5.7.0 by Apache Hive 
beeline> !connect jdbc:hive2://cdh2:10000 

scan complete in 3ms 

Connecting to jdbc:hive2://cdh2:10000 

Enter username for jdbc:hive2://cdh2:10000: 

Enter password for jdbc:hive2://cdh2:10000: 
Connected to: Apache Hive (version 1.1.0-cdh5.7.0) 
Driver: Hive JDBC (version 1.1.0-cdh5.7.0) 
Transaction isolation: TRANSACTION REPEATABLE READ 
0: jdbc:hive2://cdh2:10000> show databases; 


二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| database name | 
+ 一 一 一 一 一 一 一 一 一 = +--+ 
| default | 
| dw | 
| olap | 
| rds | 
| test | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


5 rows selected (0.288 seconds) 





也 可 以 在 命令 行 直接 指定 连接 参数 。 这 意味 着 能 够 在 Linux — shell fi) 


命令 历史 history 中 找到 含有 连接 字符 串 的 beeline 命 令 。 
beeline -u jdbc:hive2://cdh2:10000/test 


命令 行 中 的 -h 或 --help 参 数 会 输出 帮助 信息 。 


[root@cdhl~]#beeline --help --service cli 
usage: hive 


-d,--define «key-value» Variable subsitution to apply to hive 
commands. e.g. -d A-B or --define A-B 
--database <databasename> Specify the database to use 
-e «quoted-query-string» SQL from command line 
-f «filename» SQL from files 
-H,--help Print help information 
--hiveconf <property=value> Use value for given property 
--hivevar <key=value> Variable subsitution to apply to hive 
commands. e.g. --hivevar A-B 
-i «filename» Initialization SOL file 
-S,--silent Silent mode in interactive shell 
-v,--verbose Verbose mode (echo executed SQL to the 
console) 


2. 连接 URL 


Beeline 客 户 端 使 用 URL 格 式 连接 Hive 数 据 库 ，HS2 的 URL 连 接 字符 
串 语 法 如 下 : 


jdbc:hive2://«hosti»:«port1», «host2»:«port2»2/dbName; initFile-«fi 
istZhive var list 


e <host1>:<port1>,<host2>:<port2>: 要 连接 的 一 个 服务 器 实例 ， 或 
i Fe HIS Ot BIN TARA AEE, WOR AZ, ORME FA RARE 
As 

e dbName: 初始 连接 的 数据 库 名 称 。 

e <file>: 初始 化 脚本 的 路 径 (Hive 2.2.0 及 以 后 版 本 支持 ) 。 这 个 
脚本 文件 中 的 HiveQL 语 句 会 在 连接 后 自动 执行 。 该 选项 可 以 为 
"T. e 

e sess var list: 以 一 个 逗号 分 隔 的 、 会 话 级 变量 的 键 / 值 对 列表 。 

e hive conf list: 以 一 个 逗号 分 隔 的 、Hive 配 置 变 量 的 键 / 值 对 列 




















A. 
e hive var list: LA—^ 3i Sa BRI. Hives JE / 值 对 列表 。 


JDBCXEdZ AA jdbc:hive2://AIA, Ika AA 
org.apache.hive.jdbc.HiveDriver。 注 意 这 和 老 的 HS1 不 同 。 


对 于 远程 连接 模式 ， 连 接 URL 的 格式 为 : 


jdbc:hive2://«host»:«port»/«db»;initFile-«file» (HS2 默认 的 端口 下 








对 于 般 入 连接 模式 ， 连 接 UREL 的 格式 为 : 
jdbc:hive2:///;initFile-«file» (没有 主机 名 和 端口 》。 

当 HS2 以 HTTP 模 式 运行 时 ， 连 接 URL 的 格式 为 : 
jdbc:hive2://«host»:«port»/«db»;transportMode-http;httpPath-«htt 


<http_endpoint> 对 应 的 是 hive-site,xml 文 件 中 配置 hive.server2.thrift.h 
cliservice。 默 认 的 HTTP 传 输 端 口 为 10001。 





当 HS2 启 用 了 SSL 时 ， 连 接 URL 的 格式 为 : 


jdbc:hive2://«host»:«port»/«db»;ssl-true;sslTrustStore-«trust st 
«trust store password» 





其 中 <trust_store_path> 是 客户 端 信任 文件 所 在 路 径 ， 
<trust_store_password> 是 访问 信任 文件 所 需 的 密码 。 相 应 HTTP 模 式 的 格 
TWA: 

jdbc:hive2://«host»:«port»/«db»;ssl-true;sslTrustStore-«trust st 
«trust store password»;transportMode-http;httpPath-«http endpoin 
从 Hive 2.1.0 开 始 ，Beeline 文 持 命 名 URL 连 接 串 ， 这 是 通过 环境 变 
量 实现 的 。 如 果 使 用 !connect 连 接 一 个 名 称 ， 而 不 是 URL， 那 么 Beeline 
会 查找 一 个 名 为 BEELINE_URL_<name> 的 环境 变量 。 例 如 ， 如 果 命 令 
Zj!connect ”blue，Beeline 会 查找 BEELINE_URL_BLUE 坏 境 变 量 ， 并 使 
用 该 变量 的 值 做 连接 。 对 于 系统 管理 员 来 说 ， 为 用 户 设 置 环境 变量 相对 


方便 些 ， 用 户 也 不 需要 在 每 次 连接 时 都 键入 完整 的 URL 字 符 串 。 


!reconnect 命 令 用 于 刷新 已 经 建立 的 连接 ， 如 果 已 经 执行 Iclose 命 令 
关闭 了 连接 ， 则 不 能 再 刷新 连接 。 从 Hive ”2.1.0 起 ，Beeline 会 记 住 一 个 
会 话 最 后 成 功 连接 的 URL， 这 样 即 使 已 经 运行 了 !close 命 令 也 能 够 重 
连 。 另 外 ， 如 果 用 户 执行 了 !save 命 令 ， 连 接 会 被 保存 到 
beeline.properties 文 件 中 ， 当 执行 !reconnect 时 ， 会 连接 到 这 个 保存 的 
URL。 也 可 以 在 命令 行使 用 -r 参 数 ， 在 启动 Beeline 时 执行 重 连 操作 。 


3. 变量 和 属性 

--hivevar 人 参数 可 以 让 用 户 在 命令 行 定 义 上 自己 的 变量 以 便 在 Hive 脚 本 
中 引用 ， 以 满足 不 同情 况 的 需要 。 这 个 功能 只 有 Hive 0.8.0 及 其 之 后 版 本 
才 支 持 。 当 使 用 这 个 功能 时 ，Hive 会 将 键 / 值 对 放 到 hivevar 命 名 空间 ， 


这 样 就 能 和 另外 三 种 内 置 的 命名 空间 (hiveconf、system 和 env) 加 以 区 
分 。 表 8-3 描 述 了 Hive 的 4 种 命名 空间 选项 。 


表 8-3 ”Hive 中 变量 和 属性 的 命名 空间 























命名 空间 使 用 权限 描述 

hivevar 可 读 写 用 户 自 定义 变量 (Hive 0.8.0 及 其 以 后 版 本 ) 
rwr | 可 读 写 Hive 相关 的 配置 属性 

— | 可 读 写 Java 定义 的 配置 属性 

Env | 只 读 shell 环境 (如 bash) 定义 的 环境 变量 





变量 在 Hive 内 部 是 以 Java 字 符 串 的 方式 存储 的 。 用 户 可 以 在 查询 中 
引用 变量 。Hive 会 先 使 用 变量 值 蔡 换 掉 得 询 的 变量 引用 ， 然 后 才 会 将 得 
询 语句 提交 给 查询 处 理 器 。 在 beeline 环 境 中 ， 可 以 使 用 Set 命令 显 示 或 者 
修改 变量 值 。 例 如 ， 下 面 这 个 会 话 先 显 示 一 个 env 变 量 的 值 ， 然 后 再 显 
示 所 有 命名 空间 中 定义 的 变量 。 为 了 更 清晰 地 表现 ， 我 们 省 略 抒 这 个 
Hive 会 话 中 大 量 的 输出 信息 : 


0: jdbc:hive2://cdh2:10000/test» set env:HOME; 














1 row selected (0.126 seconds) 

0: jdbc:hive2://cdh2:10000/test>set; 

.， .非常 多 的 输出 信息 .. ， 

0: jdbc:hive2://cdh2:10000/test>set -v; 
.. .更 多 的 输出 信息 ! ... 





如 果 不 加 -v 标 记 ，set 命 令 会 打印 出 hivevar、hiveconf、system 和 env 
中 所 有 的 变量 。 使 用 -Vv 标记 ， 则 会 打印 出 Hadoop 中 所 定义 的 所 有 属性 。 
例如 控制 HDFS 和 MapReduce 的 属性 。set 命 令 还 可 用 于 给 变量 赋 新 的 
值 。 我 们 特别 看 下 hivevar 命 名 空间 以 及 如 何 通 过 命令 行 定义 一 个 变量 : 





[root@cdhi~ ]#beeline --hivevar foo-bar 

beeline> set foo; 

No current connection 

beeline> !connect jdbc:hive2://cdh2:10000 

scan complete in 3ms 

Connecting to jdbc:hive2://cdh2:10000 

Enter username for jdbc:hive2://cdh2:10000: 

Enter password for jdbc:hive2://cdh2:10000: 
Connected to: Apache Hive (version 1.1.0-cdh5.7.0) 
Driver: Hive JDBC (version 1.1.0-cdh5.7.0) 
Transaction isolation: TRANSACTION_REPEATABLE_READ 
0: jdbc:hive2://cdh2:10000> set foo; 


dbo E E +--+ 
| set | 
deseceoscoc 十 - -十 
| foo=bar | 
do secsseces +--+ 


1 row selected (0.123 seconds) 

0: jdbc:hive2://cdh2:10000> set hivevar:foo=bar2; 
No rows affected (0.005 seconds) 

0: jdbc:hive2://cdh2:10000> set hivevar: foo; 


+------------------- +--+ 
| set | 
+------------------- +--+ 
| hivevar:foo=bar2 | 
+------------------- +--+ 


1 row selected (0.007 seconds) 
0: jdbc:hive2://cdh2:10000> set foo; 
a T 十 - -十 


1 row selected (0.01 seconds) 


a UAZ, Bü ZÉhivevar:ze n] HJ, Aun WB. ERA A 
间 束 是 hivevar。 在 beeline 环 境 中 ， 碍 询 语句 的 变量 引用 会 先 被 蔡 换 掉 ， 
然后 才 提 交 给 查询 处 理 器 。 





0: jdbc:hive2://cdh2:10000» create table tl(i int,${hivevar:foo} string); 
No rows affected (0.135 seconds) 
0: jdbc:hive2://cdh2:10000» desc t1; 


4----------- 4------------ +---------- +--+ 
| col name | data type | comment | 
sag aaa ts po t===—> 2S Set: 
(met | int | | 
| bar2 | string | | 
4----------- + 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 +--+ 


2 rows selected (0.118 seconds) 


0: jdbc:hive2://cdh2:10000> create table t2(i int,${foo} string); 
No rows affected (0.09 seconds) 
0: jdbc:hive2://cdh2:10000» desc t2; 


二 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 +--+ 
| col name | data type | comment | 
4R----------- 4------------ 4---------- +--+ 
| Inte | | 
| bar2 | string | | 
4-2---------- 4------------ + 一 一 一 一 一 一 一 一 一 +--+ 


2 rows selected (0.119 seconds) 


--hiveconf 选 项 是 hive 0.7 版 本 后 支持 的 功能 ， 用 于 配置 Hive 行 为 的 
所 有 属性 。 我 们 甚至 可 以 增加 新 的 hiveconf 属 性 


0: jdbc:hive2://cdh2:10000» set hiveconf:y-1; 
No rows affected (0.005 seconds) 
0: jdbc:hive2://cdh2:10000> set hiveconf:y; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
| Set | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| hiveconf:y=1 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


1 row selected (0.008 seconds) 
0: jdbc:hive2://cdh2:10000> select * from t where id=${hiveconf:y}; 


+------- +--------- +------------ +--+ 
| t.id | t.name | t -address | 
十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
[alk | al | bl | 
4------- + 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


1 row selected (16.079 seconds) 


我 们 还 有 必要 了 解 一 下 system 命 名 空间 ， 它 定义 Java 系 统 属性 。 
Beeline 对 这 个 命名 空间 内 容 具 有 可 读 写 权利 ， 而 对 于 env 命 名 空间 的 环 
境 变 量 只 提供 读 权 限 。 











0: jdbc:hive2://cdh2:10000> set system:user.name; 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| set | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| system:user.name=hive | 
+------------------------ +--+ 


1 row selected (0.009 seconds) 

0: jdbc:hive2://cdh2:10000» set system:user.name=hive2; 
No rows affected (0.008 seconds) 

0: jdbc:hive2://cdh2:10000» set system:user.name; 


| system:user.name-hive2 | 
4-2------------------------ +--+ 

1 row selected (0.009 seconds) 

0: jdbc:hive2://cdh2:10000» set env:HOME; 


4------------------------- +--+ 
| set | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| env:HOME=/var/lib/hive | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


1 row selected (0.011 seconds) 
0: jdbc:hive2://cdh2:10000> set env: HOME=/var/lib/hive2; 
Error: Error while processing statement: null (state-,code-1) 


和 hivevar 变 量 不 同 ， 用 户 必 须 使 用 system: 或 者 env: 前 级 来 指定 系统 
属性 和 环境 变量 。env 命 名 空间 可 作为 向 Hive 传 递 变量 的 一 个 可 选 的 方 
Ie 


$ [root@cdh1~]# YEAR-2106 
$ [root@cdhi~]# beeline -u jdbc:hive2://cdh2:10000/test -e "sel: 
$(env: YEAR)"; 

得 询 处 理 器 会 在 where 子 句 中 得 看 到 实际 的 变量 值 为 2016。Hive 中 
所 有 的 内 置 属性 都 在 $bHIVE_HOME/conf/hive-default.xml.template 文 件 中 
列举 出 来 了 ， 这 是 个 样 例 配 置 文 件 ， 其 中 还 说 明了 这 些 属性 的 默认 值 。 


4. 在 命令 行 中 执行 HiveQL 语 句 


用 户 有 时 可 能 希望 执行 一 个 或 多 个 查询 (使 用 分 写 分 隅 ) ， 执 行 结 
束 后 立即 退出 命令 行 。Hive 提 供 了 这 样 的 功能 ， 因 为 beeline 可 以 接受 -e 
参数 这 种 形式 。 例 如 查询 表 t， 我 们 可 以 看 到 如 下 输出 : 


[root@cdhl~]#beeline -u jdbc:hive2://cdh2:10000/test -e "select * from t" 
+ 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 4------------ +--+ 





| t.id | t.name t.address | 

二 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 

[jai | ual bl | 

IE2 [iat bl | 

Ps | a2 b2 | 

| 4 | a2 b2 | 

二 一 一 一 一 一 一 一 +--------- 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 

4 rows selected (0.254 seconds) 

Beeline version 1.1.0-cdh5.7.0 by Apache Hive 


Closing: 0: jdbc:hive2://cdh2:10000/test 
[root@cdh1~] # 


5. 执行 HiveQL 文件 


Hive 中 可 以 使 用 -人 文件 名 的 方式 执行 指定 文件 中 的 一 个 或 者 多 个 得 
询 语句 。 按 照 惯例 ， 一 般 把 这 些 Hive 查 询 文件 保存 为 具有 .q 或 者 .hql 后 
级 名 的 文件 ， 我 们 在 后 面 的 示例 中 仍然 使 用 传统 的 .sql 作 为 脚本 文件 后 


又 
By o 








[root@cdhi~ ]#beeline -u jdbc:hive2://cdh2:10000/dw -f create tal 


6. 杂项 功能 


Beeline 命 令 行 还 文 持 其 他 一 些 有 用 的 功能 。 如 果 用 户 在 输入 的 过 程 
中 单 击 Tab 制 表 符 键 ， 那 么 命令 行 接口 会 自动 补 全 可 能 的 关键 字 或 者 函 
数 名 。 例 如 用 户 输入 sele， 然 后 按 Tab 键 ， 命 令 行 接口 会 自动 补 全 这 个 词 
为 select。 如 有 果 用 户 在 提示 符 后 面 散 击 Tab 键 ， 那 么 用 户 会 看 到 如 下 回 
复 : 


0: jdbc:hive2://cdh2:10000/test> Display all 560 possibilities? 


“Sala OTe A Ae AI, ORS TW Tab HEMT, NU 
产生 一 个 常见 的 令 人 困惑 的 错误 。 用 户 这 时 会 看 到 一 个 “Display all 560 
possibilities? (y or nD)” 的 提示 ， 而 且 输 入 流 后 面 的 字符 就 会 被 认为 是 对 这 
个 提示 的 回复 ， 也 因此 会 导致 命令 执行 失败 。 


用 户 可 以 使 用 上 下 和 荫 头 来 滚动 查看 之 前 的 历史 命令 。 事 实 上 ， 每 一 
行 之 前 的 输入 都 是 单独 显示 的 ，Beeline 不 会 把 多 行 命令 和 查询 作为 一 个 
单独 的 历史 条 目 。Hive 会 将 最 近 的 命令 记录 到 文件 
$HOME/beeline/history 中 。 如 果 用 户 想 再 次 执行 之 前 执行 过 的 某 条 命 
令 ， 只 要 在 Beeline 环 境 的 提示 符 下 ， 将 光标 滚动 到 那 条 记录 ， 然 后 按 回 
车 键 束 可 以 了 。 如 果 用 户 需 要 修改 这 行 记录 后 再 执行 ， 那 么 需要 使 用 左 
右 方 癌 键 将 光标 移动 到 需要 修改 的 地 方 重新 编辑 修改 ， 之 后 直接 按 回 车 
键 就 能 提交 这 条 命令 ， 而 无 有 顷 将 光标 移动 到 命令 末尾 。 

用 户 还 可 以 在 Beeline 命 令 行 中 执行 Hadoop 的 dfs 命 令 ， 只 需要 将 命 
令 中 的 关键 字 hadoop 去 掉 ， 然 后 以 分 号 结尾 就 可 以 了 : 























ua 








0: jdbc:hive2://cdh2:10000/test» dfs -ls /; 





十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| DFS Output 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
| Found 5 items | 

| drwxr-xr-x - hbase hbase 0 2016-08-18 13:42 /hbase 

| drwxr-xr-x - root supergroup 0 2016-08-19 17:29 /logs 

| drwxr-xr-x - wxy supergroup 0 2016-08-13 15:03 /opt 

| drwxrwxrwt - hdfs supergroup 0 2016-08-13 15:12 /tmp 
|^drwxr-xr-x - hdfs supergroup 0 2016-08-13 14:39 /user 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


6 rows selected (0.238 seconds) 


这 种 使 用 hadoop 命 令 的 方式 实际 上 比 与 其 等 价 的 在 bash shell P dA T 
的 hadoop dfs 命 令 效 率 更 高 ， DUE VUE Ca 
例 ， 而 Hive 会 在 同一 个 进程 中 执行 这 些 命令 。 用 户 可 以 通过 如 下 命令 得 
看 dfs 所 提供 的 所 有 功 


0: jdbc:hive2://cdh2:10000/test» dfs -help; 


以 -- 开 头 的 字符 串 用 来 表示 注释 ， 命 令 行 接口 不 会 解析 这 些 注释 
行 。Hive 客 户 端 目前 还 不 文 持 /**#*/ 这 种 语法 的 多 行 注释 。 

可 以 使 用 show functions 命 令 列 出 当前 Hive 会 话 中 所 加 载 鸭 所 有 函数 
名 称 ， 其 中 包括 内 置 的 和 用 户 加 载 的 函数 。 函 数 通常 都 有 其 自身 的 使 用 
文档 ， 使 用 desc function 命 令 可 以 展示 对 应 EUCH 简短 介绍 ， 还 可 以 通 
过 增加 extended 关 键 字 查 看 更 详细 的 函数 文档 。 这 是 一 种 很 有 用 的 联机 

帮助 方式 。 


0: jdbc:hive2://cdh2:10000/test» show functions; 





abs 
acos 
add months 


213 rows selected (0.178 seconds) 
0: jdbc:hive2://cdh2:10000/test» desc function abs; 
abs(x) - returns the absolute value of x 
0: jdbc:hive2://cdh2:10000/test» desc function extended abs; 
abs(x) - returns the absolute value of x 
Example: 
> SELECT abs(0) FROM src LIMIT 1; 
0 


> SELECT abs(-5) FROM src LIMIT 1; 
5 


7. 输出 格式 


在 Beeline 中 ， 碍 询 结果 能 以 不 同 的 格式 显示 出 来 。 显 示 格 式 可 以 通 
过 outputformat 选 项 设置 。 支 持 的 输出 格式 有 table、vertical、xmlattr、 


xmlelements 和 分 隔 值 格 式 (csv. tsv. csv2. tsv2. dsv) 。 以 下 是 一 些 
不 同 格式 的 输出 示例 。 





«result» 
<id>2</id> 
<value>Value2</value> 
<comment>Test comment 2</comment> 
</result> 
<result> 
<id>3</id> 
<value>Value3</value> 
<comment>Test comment 3</comment> 
</result> 
</resultset> 
csv 格式 : 
'id','value','comment' 
'l','Valuel','Test comment 1' 
'2','Value2','Test comment 2' 
'3','Value3','Test comment 3' 
csv2 格式 : 
id,value,comment 
1,Valuel,Test comment 1 
2,Value2,Test comment 2 
3,Value3,Test comment 3 


tsv 格式 : 

Ege lt 'value' "comment! 

yk 'Valuel''Test comment 1' 
V2 'Value2''Test comment 2' 
"3" 'Value3''Test comment 3' 
tsv2 格式 ; 

id value comment 

1 Valuel Test comment 1 

2 Value2 Test comment 2 

3 Value3 Test comment 3 

dsv 格式 : 


id|value|comment 

1|Valuel|Test comment 1 
2|Value2|Test comment 2 
3|Value3|Test comment 3 


8. Hive CLI 和 Beeline 使 用 上 的 主要 差别 





随 着 Hive 从 原始 的 HS1 服 务 器 进化 为 新 的 HS2， 用 户 和 开发 者 也 需 
要 将 客户 端 工具 从 原来 的 Hive CLI 切 换 为 新 的 Beeline， 然 而 这 种 切换 并 
不 只 是 将 “hive” 命 令 换 成 "beeline” 命 令 这 么 简单 。 下 面 介绍 两 种 客户 端 
用 法 上 的 主要 差异 。 





e Hive CLI 提 供 了 一 个 可 以 打印 RCFile 格 式 文件 内 容 的 工具 ， 如 : 


hive --service rcfilecat /user/hive/warehouse/columntable/000000 


Beeline 没 有 此 项 功能 。 


e Hive CLI 可 以 使 用 source 命 令 来 执行 脚本 文件 ， 如 : 
hive> source /path/to/file/queries.hql; 


Beeline 没 有 此 项 功能 。 


e Hive CLI 可 以 配置 hive.cli.print.current.db 属 性 ， 在 命令 行 提示 符 
前 打印 当前 数据 库 名 ， 如 : 


$hive -hiveconf hive.cli.print.current.db-true 
hive (default)» set hive.cli.print.current.db; 
hive.cli.print.current.db-true 


Beeline 使 用 --showDbInPrompt 命 令 行 参数 实现 此 功能 (2.2.0 版 本 新 
H5. 
e Hive CLI 可 以 使 用 “!” 操 作 符 执 行 shell 命 令 ， 如 : 


hive» ! pwd; 
/home/root 


Beeline 中 不 能 执行 Shell 命 令 ， 其 中 的 “符号 是 用 来 执行 Beeline 命 
令 的 ， li: 


beeline» !connect jdbc:hive2://cdh2:10000 





。 在 Hive CLI 中 ， 默 认 时 在 查询 结果 中 不 显示 字段 名 称 ， 需 要 设置 
hive.cli.print.header 选 项 打印 字段 名 称 ， 如 : 


hive» set hive.cli.print.header-true; 





而 Beeline 不 需要 此 项 设置 就 会 在 输出 中 显示 字段 名 称 。 


e Hive CLI 中 可 以 使 用 --define 命 令 行 参 数 设 置 变量 ， 它 和 --hivevar 
是 相同 的 ， 如 : 


hive --define foo-bar 


而 在 Beeline 中 --define 参 数 是 无 效 的 ， 只 能 使 用 --hivevar 参 数 。 


e Hive CLI 可 以 使 用 -S 选 项 开启 静默 模式 ， 这 样 可 以 在 输出 结果 中 
去 掉 额 外 的 输出 信息 ， 而 Beeline 虽 然 提 供 了 -silent 参 数 ， 似 乎 能 
起 到 相同 的 效果 ， 但 实际 上 不 行 〈 至 少 在 CDH ”5.7.0 上， 该 参数 
和 hive 的 -S 作 用 是 不 同 的 ) 。 

e Hive CLI 文 持 管 道 待 。 例 如 ， 用 户 没 有 记 清 楚 哪 个 属性 指定 了 管 
理 表 的 “warehouse” 路 径 ， 通 过 如 下 的 命令 可 以 查看 到 ; 





hive -e "set" | grep warehouse 
上 面 的 命令 换 成 beeline 则 不 会 得 到 想 要 的 结 


Beeline 需 要 在 客户 并 脚本 中 添加 设置 支持 事务 的 set 命 令 ， 即 使 在 服 
务 器 端的 hivesite.xml 文 件 中 已 经 设置 ， 而 Hive CLI 则 不 需要 。 


8.33 Jn E 


对 Hive 的 服务 器 结构 和 命令 行 有 一 定 了 解 后 ， 开 始 进行 销售 订单 示 
例 数据 仓库 的 数据 转换 和 装载 过 程 的 设计 与 编程 。 在 编写 HiveQL 脚 本 
时 ， 我 们 会 用 到 Hive 客 户 端 的 相关 知识 。 

在 数据 仓库 可 以 使 用 前 ， 需 要 装载 历史 数据 。 这 些 历史 数据 是 村 入 
进 数 据 仓 库 的 第 一 个 数据 集合 。 首 次 闭 载 被 称 为 初始 装载 ， 一 般 是 一 次 
性 工作 。 由 最 终 用 户 来 决定 有 多 少 历史 数据 进入 数据 仓库 。 例 如 ， 数 据 
仓库 使 用 的 开始 时 间 是 2015 年 3 月 1 日 ， 而 用 户 希 望 装载 两 年 的 历史 数 





据 ， 那 么 应 该 初始 装载 2013 年 3 月 1 日 到 2015 年 2 月 28 日 之 间 的 源 数据 。 
在 2015 年 3 月 2 日 装载 2015 年 3 月 1 日 的 数据 (假设 执行 频率 是 每 天 一 
次 ) ， 之 后 周期 性 地 每 天 装载 前 一 天 的 数据 。 在 装载 事实 表 前 ， 必 须 先 
装载 所 有 的 维度 表 。 因 为 事实 表 需 要 引用 维度 的 代理 键 。 这 不 仅 针对 初 
始 装载 ， 也 针对 定期 装载 。 本 节 说 明 执 行 初始 装载 的 步骤 ， 包 括 标识 源 
数据 、 维 度 历史 的 处 理 、 使 用 HiveQL 开 发 和 验证 初始 装载 过 程 。 

设计 开发 初始 装载 步骤 前 需要 识别 数据 仓库 的 每 个 事实 表 和 每 个 维 
度 表 用 到 的 并 且 是 可 用 的 源 数据 ， 还 要 了 解数 据 源 的 特性 ， 例 如 文件 类 
型 、 记 录 结 构 和 可 访问 性 等 。 表 8-4 显 示 的 是 销售 订单 示例 数据 仓库 需 
要 的 源 数据 的 关键 信息 ， 包 括 源 数 据 表 、 对 应 的 数据 仓库 目标 表 等 属 
性 。 这 类 表格 通常 称 作 数 据 源 对 应 图 ， 因 为 它 反 映 了 每 个 从 源 数 据 到 目 
标 数据 的 对 应 关系 。 生 成 这 个 表格 的 过 程 就 是 前 面 7.1 节 讨论 的 逻辑 数 
据 映 射 。 在 本 示例 中 ， 客 户 和 产品 的 源 数据 直接 与 其 数据 仓库 里 的 目标 
表 customer_dim 和 product_dim 表 相对 应 ， 而 销售 订单 事务 表 是 多 个 数据 
仓库 表 的 数据 源 。 























X8-A ”销售 订单 数据 源 映射 


源 数据 类 型 文件 名 / 表 名 数据 仓库 中 的 目标 表 
客户 


MySQL 表 customer customer dim 
MySQL 表 product product dim 


MySQL X order dim, sales order fact 


标识 出 了 数据 源 ， 现 在 要 考虑 维度 历史 的 处 理 。 大 多 数 维度 值 是 随 
着 时 间 改 变 的 ， 如 客户 改变 了 姓名 ， 产 品 的 名 称 或 分 类 变化 等 。 当 一 个 
维度 改变 ， 比 如 当 一 个 产品 有 了 新 的 分 类 时 ， 有 必要 记录 维度 的 历史 变 
化 信息 。 在 这 种 情况 下 ，product_dim 表 里 必须 既 存储 产品 老 的 分 类 ， 也 
存储 产品 当前 的 分 类 。 并 且 ， 老 的 销售 订单 里 的 产品 引用 老 的 分 类 。 渐 
变 维 (SCD) 即 是 一 种 在 多 维 数据 仓库 中 实现 维度 历史 的 技术 。 有 三 种 
不 同 的 SCD 技 术 : SCD 类 型 1 (SCD1) ，SCD 类 型 2 (SCD2) , SCD2# 
型 3 (SCD3) 。 

















e SCD1: 通过 更 新 维度 记录 直接 履 盖 已 存在 的 值 ， 它 不 维护 记录 
的 历史 。SCD1 一 般 用 于 修改 错误 的 数据 。 
SCD2: 在 源 数 据 发 生变 化 时 ， 给 维度 记录 建立 一 个 新 的 “版 
本 ”记录 ， 从 而 维护 维度 历史 。SCD2 不 删除 、 修 改 已 存在 的 数 
据 。 
SCD3: 通常 用 作 保 持 维 度 记录 的 几 个 版 本 。 它 通过 给 某 个 数据 
单元 增加 多 个 列 来 维护 历史 。 例 如 ， 为 了 记录 客户 地 址 的 变化 ， 
customer_dim 维 度 表 有 一 个 customer_address 列 和 一 个 
previous_customer_address 列 ， 分 别 记录 当前 和 上 一 个 版 本 的 地 
址 。SCD3 可 以 有 效 维护 有 限 的 历史 ， 而 不 像 SCD2 那 样 保存 全 部 
历史 。SCD3 很 少 使 用 。 它 只 适用 于 数据 的 存储 空间 不 足 并 且 用 
户 接受 有 限 维度 历史 的 情况 。 

同一 维度 表 中 的 不 同 字段 可 以 有 不 同 的 变化 处 理 方式 。 在 本 示例 
中 ， 客 户 维度 历史 的 客户 名 称 使 用 SCD1， 客 户 地 址 使 用 SCD2， 产 品 维 
度 的 两 个 属性 ， 产 品名 称 和 产品 类 型 都 使 用 SCD2 保 存 历史 变化 数据 。 


多 维 数据 仓库 中 的 维度 表 和 事实 表 一 般 都 需要 有 一 个 代理 键 ， 作 为 
这 些 表 的 主键 ， 代 理 键 一 般 由 单列 的 自 增 数字 序列 构成 。Hive 没 有 关系 
数据 库 中 的 自 增 列 ， 但 它 也 有 一 些 对 自 增 序列 的 文 持 ， 通 常 有 两 种 方法 
生成 代理 键 : 使 用 row_number() 窗 口 函 数 或 者 使 用 一 个 名 为 
UDFRowSequence 的 用 户 自 定义 函数 (UDF) 。 


假设 有 维度 表 tbl_dim 和 过 渡 表 tbl_stg， 现 在 要 将 tbl_stg 的 数据 装载 
到 tbl_dim， 装 载 的 同时 生成 维度 表 的 代理 键 。 














e 用 row_number() 孙 数 生成 代理 刍 


insert into 


tbl dim 


select row number() 


over (order by 


tbl stg.id) + t2.sk max, tbl stg.* 
from 


tbl stg 
cross join 


(select coalesce(max( 


Sk),0) sk max from 


tbl dim) t2; 


上 面 语 句 中 ， 先 和 查询 维 度 表 中 已 有 记录 最 大 的 代理 键 值 ， 如 果 维 度 
表 中 还 没有 记录 ， 利 用 coalesce 函 数 返 回 0。 然 后 使 用 cross join 连接 生成 
过 渡 表 和 最 大 代理 键 值 的 华 卡 尔 集 ， 最 后 使 用 row_number0O 函 数 生成 行 
号 ， 并 将 行 号 与 最 大 代理 键 值 相 加 的 值 ， 作 为 新 装载 记录 的 代理 键 。 














。 用 UDFRowSequence 生 成 代理 键 


add 


jar hdfs:///user/hive-contrib-2.0.0.jar; 
create temporary function 


row sequence as 


'org.apache.hadoop.hive.contrib.udf.udfrowsequence'; 


insert into 


tbl dim 
select 


row sequence() + t2.sk max, tbl stg.* 
from 


tbl stg 
cross join (select coalesce(max( 


Sk),0) sk max from 


tbl dim) t2; 








hive-contrib-2.0.0.jar 中 包含 一 个 生成 记录 序号 的 自 定义 函数 
udfrowsequence。 上 面 的 语句 先 加 载 JAR 包 ， 然 后 创建 一 个 名 为 
row_sequence() 的 临时 函数 作为 调用 UDF 的 接口 ， 这 样 可 以 为 查询 的 结 
果 集 生成 一 个 自 增 伪 列 。 之 后 就 和 row_number() 写 法 类 似 了 ， 只 不 过 将 
fa O ek crow. number $$ 3 Arow_sequence() A 2 © 


因为 窗口 函数 的 方法 比较 通用 ， 而 且 无 顷 引 入 额外 的 JAR 包 ， 所 以 
我 们 在 示例 中 使 用 row_number0) 函 数 生成 代理 键 。 


现在 可 以 编写 用 于 初始 装载 的 脚本 了 。 假 设 数据 仓库 从 2016 年 7 月 4 





日 开始 使 用 ， 用 户 和 希望 装载 所 有 的 历史 数据 。 我 们 建立 一 个 名 为 
init_etlsh 的 shell 脚 本 用 于 完成 初始 装载 过 程 ， 该 脚本 先 使 用 Sqoop 抽 取 
源 库 的 数据 ， 然 后 调用 一 个 名 为 init_etl.sql 的 HiveQL 脚 本 执行 数据 装 
载 ，init_etl.sh 的 内 容 如 下 : 


#!/bin/bash 

# 建立 Sqoop 增 量 导 入 作业 ， 以 order_number 作 为 检查 列 ， 初 始 的 last-value 是 0 
sqoop job --delete myjob incremental import 

sqoop job --create myjob incremental import \ 

-- \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales_order \ 

--columns "order_number, customer_number, product_code, order_da 
\ 

--hive-import \ 

--hive-table rds.sales order \ 

--incremental append \ 

--check-column order_number \ 

--last-value 0 

# 首次 抽取 ， 将 全 部 数据 导入 RDS 库 

sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table customer --hive-import --hive-table rds.custo 
sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table product --hive-import --hive-table rds.produc 
beeline -u jdbc:hive2://cdh2:10000/dw -e "TRUNCATE TABLE rds.sal 
# 执行 增 量 导 入 ， 因 为 last -Value 初始 值 为 0， 所 以 此 次 会 导入 全 部 数据 

sqoop job --exec myjob incremental import 

4 调用 init_et1,sql 文 件 执行 初始 装载 

beeline -u jdbc:hive2://cdh2:10000/dw -f init etl.sql 














在 init_etl.sh 文 件 的 开头 建立 了 一 个 名 为 myjob_incremental_import、 
用 于 增 量 抽取 数据 的 Sqoop 作 业 。 把 建立 Sqoop 作 业 的 命令 放 到 初始 脚本 
中 的 好 处 是 ， 人 允许 多 次 运行 这 个 脚本 文件 ， 实 现 贤 等 操作 。 这 个 Sqgoop 
作业 和 上 一 章 中 测试 增 量 抽取 时 建立 的 myjob_1 作 业 有 三 点 区 别 。 首 先 
ee Undc qe 
做 ， 是 为 了 避免 将 严格 过 小 前 一 天 数据 的 逻辑 放 到 抽取 过 程 中 。 增 量 抽 
取 只 需要 将 所 有 的 新 增 数据 装载 到 过 渡 区 中 即 可 ， 严 格 过滤 前 一 天 数据 
的 逻辑 放 到 Hive 中 执行 。 在 后 面 的 HiveQL 脚 本 中 将 看 到 ， 我 们 是 使 用 








where 过 小 条 件 实现 这 个 逻辑 的 。 其 次 ， 这 回 使 用 --check-column 
order number， 将 订单 号 而 不 是 时 间 惟 作为 检查 列 。 在 MySQL 的 源 库 
中 ，order_number 列 是 自 增 主键 ， 并 且 假 设 订 单数 据 是 不 会 删除 的 ， 
此 是 可 以 用 该 列 检查 到 新 增 数据 的 。 最 后 是 使 用 --last-value 0， 将 初始 
检查 值 设置 为 0。 由 于 源 数据 的 订单 号 都 会 大 于 0， 因 此 首次 执行 将 抽取 
全 部 销售 订单 数据 。 

建立 增 量 导入 作业 后 ， 执 行 三 个 sqoop 命 令 ， 前 两 个 全 量 抽取 客户 
和 产品 数据 ， 它 们 将 会 用 源 数 据 全 部 窗 盖 rds 库 中 的 customer 和 和 product 
表 ， 第 三 个 执行 增 量 抽取 作业 ， 闭 载 rds.sales_order 表 的 数据 ， 在 此 之 前 
先 用 beeline 命 令 行 清空 rds.sales_order 表 ， 也 是 为 了 能 够 重复 执行 脚本 但 
不 重复 装载 数据 。 

前 面 的 操作 是 初始 数据 抽取 ， 将 源 数据 导入 到 过 渡 区 数据 库 。 肢 本 
中 最 后 一 条 语句 是 调用 init_etl.sql 文 件 执 行 数据 仓库 的 表 装 载 。 该 文件 
中 的 HiveQL 上 脚本 如 下 : 





use 


dw; 
- 清空 
truncate table 


customer dim; 
truncate table 


product dim; 
truncate table 


order dim; 
truncate table 


sales order fact; 
-- 装载 客户 维度 表 


insert into 


customer dim 
select 


row number () 


over (order by 


ti.customer number) + t2.sk max, 

ti.customer number, ti.customer name, ti.customer street address 
ti.customer zip code, ti.customer city, ti.customer state, 1, 
'2016-03-01', '2200-01-01' 
from 


rds.customer t1 
cross join (select coalesce(max 


(customer sk),0) sk max 
from 


customer dim) t2; 
-- ABUTERE 


insert into 


product dim 


select 


row number() 


over (order by 


ti.product code) + t2.sk max, 
product code, product name, product category, 1, 
'2016-03-01', '2200-01-01' 
from 


rds.product t1 
cross join 


(select coalesce(max 


(product sk),0) sk max 
from 


product dim) t2; 
-- 装载 订单 维度 表 


insert into 


order dim 
select 


row number() 


over (order by 


ti.order number) + t2.sk max, 
order number, 1, order date, '2200-01-01' 
from 


rds.sales order t1 
cross join 


(select coalesce(max 


(order sk),0) sk max from 


order dim) t2; 
-- 装载 销售 订单 事实 表 


insert into 











sales order fact 
select 


order sk, customer sk, product sk, date sk, order amount 
from 


rds.sales order a, order dim b, customer dim c, 
product dim d, date dim e 
where 


a.order number - b.order number 


a.customer number = c.customer number 
and 


a.product code - d.product code 
and to date 


(a.order date) - e.date 


说 明 : 


。 为 实现 暴 等 操作 ， 装 载 数 据 前 先 要 清空 表 。 

e 时 间 粒 上 度 为 每 天 ， 也 就 是 说 ， 一 天 内 发 生 的 数据 变化 将 被 忽略 ， 
以 一 天 内 最 后 的 数据 版 本 为 准 。 

使 用 了 窗口 函数 row_number0 实 现 生 成 代理 键 。 

客户 和 产品 维度 的 生效 日 期 是 2016 年 3 月 1 日 。 装 载 的 销售 订单 不 
会 早 于 该 日 期 ， 也 就 是 说 ， 不 需要 更 早 的 客户 和 产品 维度 数据 。 
订单 维度 的 生效 日 期 显然 就 是 订单 生成 的 日 期 (order_date 字 
段 ) 。 为 了 使 所 有 维度 表 具 有 相同 的 粒度 ， 使 用 to_date 函 数 将 订 
单 维 度 的 生效 日 期 字段 只 保留 到 日 期 ， 忽 略 时 间 部 分 。 

销售 订单 事实 表 的 外 键 列 引用 维度 表 的 代理 键 。 这 里 说 的 外 键 只 
是 逻辑 上 的 外 键 ，Hive 并 不 文 持 创建 表 的 物理 主键 或 外 刍 。 
date_dim 维 度 表 的 数据 已 经 预 生成 ， 日 期 从 2000 年 1 月 1 日 到 2020 
年 12 月 31 日 (参见 6.6 节 ) . 


可 以 使 用 下 面 的 查询 验证 初始 装载 的 正确 性 。 











use 


dw; 
select 


order number,customer name,product name,date 


, 
order amount amount 
from 


sales order fact a, customer dim b, product dim c, 
order dim d, date dim e 
where 


a.customer sk - b.customer sk 
and 


a.product sk - c.product sk 
and 


a.order sk - d.order sk 
and 


a.order date sk - e.date sk 
order by 


order number; 


8.4 定期 装载 


初始 装载 只 在 开始 数据 仓库 使 用 前 执行 一 次 ， 然 而 ， 必 须要 按时 调 
度 定 期 执行 装载 源 数据 的 过 程 。 与 初始 装载 不 同 ， 定 期 装载 一 般 都 是 增 
量 的 ， 需 要 捕获 并 且 记 录 数 据 的 变化 历史 。 本 节 说 明 执 行 定期 装载 的 步 
又 ， 包 括 识 别 源 数据 与 装载 类 型 、 使 用 HiveQL 开 发 和 测试 定期 装载 过 
程 。 

定期 装载 首先 要 识别 数据 仓库 的 每 个 事实 表 和 每 个 维度 表 用 到 的 并 
且 是 可 用 的 源 数 据 。 然 后 要 决定 适合 装载 的 抽取 模式 和 维度 历史 装载 类 
型 。 表 8-5 汇 总 了 本 示例 的 这 些 信息 。 











表 8-5 销售 订单 定期 装载 
数据 源 源 数据 存储 | 数据 仓库 抽取 模式 维度 历史 装载 类 型 


customer customer customer dim 整体 、 拉 取 address 列 上 SCD2, name 列 上 
SCDI 
product product product dim 整体 、 拉 取 所 有 属性 均 为 SCD2 

















sales_order sales_order order_dim CDC (89K). 
拉 取 
sales order fact CDC (RERO . 
拉 取 
N/A N/A 


date dim 





本 示例 中 order_dim 维 度 表 和 sales_order_fact 事 实 表 使 用 基于 时 间 惟 
的 CDC 装 载 模式 。 为 此 在 rds 库 中 建立 一 个 名 为 cdc_time 的 时 间 惟 表 ， 这 
个 表 里 有 1last_load 和 current_load 两 个 字段 。 之 所 以 需要 两 个 字段 ， 是 因 
为 抽取 到 的 数据 可 能 会 多 于 本 次 需要 处 理 的 数据 。 比 如 ， 两 点 执行 ETL 
过 程 ， 则 零点 到 两 点 这 两 个 小 时 的 数据 不 会 在 本 次 处 理 。 为 了 确定 这 个 
截止 时 间 点 ， 需 要 给 时 间 惟 设 定 一 个 上 限 条 件 ， 即 这 里 的 current_load 字 
段 值 。 本 示例 的 时 间 粒 度 为 每 天 ， 所 以 时 间 惟 只 要 保留 日 期 部 分 即 可 ， 
因此 数据 类 型 选 为 date。 这 两 个 字段 的 初始 值 是 “初始 加 载 ? 执 行 日 期 的 
前 一 天 ， 本 示例 中 为 '2016-07-04'。 当 开始 装载 时 ，current load 设置 为 当 








前 日 期 。 在 开始 定期 装载 实验 前 ， 和 使 用 下 面 的 脚本 建立 时 间 惟 表 。 


USe 


rds; 
drop table if exists 


cdc time ; 
create table 


cdc time 
( last load date 


, current load date 


set 


hivevar:last load - date add(current date() 


vd 
insert 


overwrite table 


cdc time select 


$(hivevar:last load), $([(hivevar:last load) ; 


在 上 面 的 语句 中 定义 了 一 个 变量 hivevar:last_ load， 赋 值 当前 日 期 的 
前 一 天 。 同 cdc_time 表 中 插入 初始 数据 时 引用 了 该 变量 。 


使 用 下 面 的 regular_etl.sh shell 脚 本 完成 定期 装载 过 程 。 


#!/bin/bash 

4 整体 拉 取 customer、product 表 数据 

sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table customer --hive-import --hive-table rds.custo 
sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
mypassword --table product --hive-import --hive-table rds.produc 
# 执行 增 量 导入 

sqoop job --exec myjob incremental import 

4 调用 regular etl.sql 文件 执行 定期 装载 

beeline -u jdbc:hive2://cdh2:10000/dw -f regular etl.sql 











这 个 文件 与 前 面 初始 装载 的 shell 脚 本 基本 相同 ， 只 是 去 掉 了 创建 
Sqoop 作 业 和 清空 rds.sales_order 表 的 语句 ， 并 调用 了 一 个 新 的 
regular_etl.sql 文 件 ， 该 文件 中 的 HiveQL 脚 本 用 于 装载 维度 表 和 事实 表 。 
因为 文件 较 长 ， 将 该 文件 分 成 以 下 7 个 部 分 ， 每 一 部 分 分 别 进行 说 明 。 


1. 设置 文 持 事务 的 hive 属 性 








我 们 使 用 的 是 Beeline 命 令 行 ， 因 此 需要 在 客户 端 脚本 中 添加 设置 文 
持 事务 的 set 语 句 。 


-- 设置 变量 以 支持 事务 
set 





hive.support.concurrency-true 


/ 
Set 


hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.DbTxnManager 
set 


hive.compactor.initiator.on-true 


, 
set 


hive.compactor.worker.threads-1; 


2. 设置 数据 处 理 时 间 窗 口 








对 于 事实 表 ， 我 们 采用 基于 时 间 惟 的 CDC 增 量 装载 模式 ， 时 间 粒 度 
为 天 。 因 此 需要 两 个 时 间 点 ， 分 别 是 本 次 装载 的 起 始 时 间 点 和 终止 时 间 
点 ， 这 两 个 时 间 点 定义 了 本 次 处 理 的 时 间 窗 口 ， 即 装载 这 个 时 间 区 间 内 
的 数据 。 还 要 说 明 一 点 ， 这 个 区 间 是 左 包含 的 ， 就 是 处 理 的 数据 包括 起 
始 时 间 点 ， 但 不 包括 终止 时 间 点 。 这 样 设计 的 原因 是 ， 我 们 既 要 处 理 完 
整 的 数据 ， 不 能 有 遗漏 ， 又 不 能 重复 装载 数据 ， 这 就 要 求 时 间 人 处 理 窗口 
既 要 连续 ， 又 不 能 存在 重 疼 的 部 分 。 对 于 维度 表 ， 除 了 要 求 相 邻 两 个 数 
据 版 本 的 时 间 段 连续 有 旦 不 重 半 之 外 ， 为 了 表示 当前 版 本 的 截止 时 间 ， 还 
需要 一 个 很 大 的 时 间 值 ， 大 到 足以 满足 数据 仓库 整个 生命 周期 的 需要 ， 
本 示例 设置 的 是 2200 年 1 月 1 日 。 























为 此 我 们 在 脚本 中 设置 三 个 变量 ， 分 别 赋予 起 始 时 间 点 、 终 止 时 间 
点 、 最 大 时 间 点 的 值 ， 并 且 将 时 间 惟 表 rds.cdc_time 的 last_load 和 
current, load 字段 分 别 设置 为 起 始 时 间 点 和 终止 时 间 上 点。 这些 变 量 会 在 后 
面 的 脚本 中 多 次 引用 。 顺 便 提 一 下 ， 这 样 设计 还 有 一 个 好 处 是 ， 如 果 因 
为 某 种 原因 需要 手工 执行 一 个 时 间 段 内 的 数据 装载 ， 只 需 改 变 变量 的 赋 
值 ， 而 不 用 修改 脚本 的 执行 逻辑 。 


-- 设置 scd 的 生效 时 间 和 过 期 时 间 
set 


hivevar:cur date = current date() 


, 
set 


hivevar:pre date - date add 


($S(hivevar:cur date), -1); 
set 


hivevar:max date - cast 


('2200-01-01' as date 


25 
-- 设置 cdc 的 上 限时 间 


insert 


overwrite table 


rds.cdc time select 


last load, $[hivevar:cur date) from 


rds.cdc time; 
3. 装载 客户 维度 表 


客户 维度 表 的 customer _street_addresses 字 段 值 变化 时 采用 SCD2， 需 
要 新 增 版 本 ，customer_name 字 上 段 值 变 化 时 采用 SCD1， 直 接替 新 更 新 。 
如 果 一 个 表 的 不 同 字 段 有 的 采用 SCD2， 有 的 采用 SCD1， 就 像 客户 维度 
表 这 样 ， 那 么 是 先 处 理 SCD2， 还 是 先 处 理 SCD1 呢 ?为 了 回答 这 个 问 
题 ， 我 们 看 一 个 简单 的 例子 。 假 设 有 一 个 维度 表 包 含 cL1，c2、c3、c4 四 
个 字段 ，cl 是 代理 键 ，c2 是 业务 主键 ，c3 使 用 SCD1，c4 使 用 SCD2。 源 
数据 从 1、2、3 变 为 1、3、4。 如 果 先 处 理 SCD1， 后 处 理 SCD2， 则 维度 
表 的 数据 变化 过 程 是 先 从 1、1、2、3 变 为 1、1、3、3， 再 新 增 一 条 记录 
2、1、3、4。 此 时 表 中 的 两 条 记录 是 1、1、3、3 和 2、1、3、4。 如 果 先 
处 理 SCD2， 后 处 理 SCD1， 则 数据 的 变化 过 程 是 先 新 增 一 条 记录 2、1、 
2、4， 再 把 1、1、2、3 和 2、1、2、4 两 条 记录 变 为 1、1、3、3 和 2、1、 
3、4。 可 以 看 出 ， 无 论 谁 先 谁 后 ， 最 终 的 结果 是 一 样 的 ， 而 且 结 果 中 都 
会 出 现 一 条 实际 上 从 未 存在 过 的 记录 : 1、1、3、3。 因 为 SCD1 本 来 就 
不 保存 历史 变化 ， 所 以 单 从 c2 字 段 的 角度 看 ， 任 何 版 本 的 记录 值 都 是 正 
确 的 ， 没 有 差别 。 而 对 于 c3 字 段 ， 每 个 版 本 的 值 是 不 同 的 ， 需 要 跟踪 所 
有 版 本 的 记录 。 我 们 从 这 个 简单 的 例子 可 以 得 出 以 下 结论 : SCD1 和 
SCD2 的 处 理 顺 序 不 同 ， 但 最 终结 果 是 相同 的 ， 并 且 都 会 产生 实际 不 存 


在 的 临时 记录 。 因 此 从 功能 上 说 ，SCD1 和 SCD2 的 处 理 顺 序 并 不 关键 ， 
只 需要 记 住 对 SCD1 的 字段 ， 任 意 版 本 的 值 都 正确 ， 而 SCD2 的 字段 需要 
跟踪 所 有 版 本 。 但 在 性 能 上 看 ， 先 处 理 SCD1 应 该 更 好 些 ， 因 为 更 新 的 
数据 行 更 少 。 本 示例 我 们 先 处 理 SCD2。 

-- 装载 customer 维 度 


-- 设置 已 删除 记录 和 customer_street_ addresses 列 上 scd2 的 过 期 
Update 








customer dim 
set 


expiry date = $(hivevar:pre date? 
where 


customer dim.customer sk in 


(select 


a.customer sk 
from 


(select 


customer sk,customer number,customer street address 
from 


customer dim where 


expiry date = ${hivevar:max_date}) a left join 


rds.customer b on 


a.customer number - b.customer number 
where 


b.customer number is null or 


a.customer street address «» 


b.customer street address); 


上 面 的 语句 将 老 版 本 的 过 期 时 间 列 从 “2200-01-01 更 新 为 执行 装载 
的 前 一 天 。 内 层 的 查询 获取 所 有 当前 版 本 的 数据 。 外 层 查 询 使 用 一 个 左 
外 连接 查询 出 地 址 列 发 生变 化 的 记录 的 代理 键 ， 然 后 在 update 语 句 的 
where 子 句 中 用 IN 操作 符 ， 更 新 这 些 记 录 的 过 期 时 间 列 。left join 的 逻辑 
查询 处 理 顺 序 是 : 


(1) 执行 a 和 b 两 个 表 的 笛 卡 尔 积 
(2) 应 用 on 过 滤器 : ona.customer number = b.customer number. 


(3) 添加 外 部 行 : a 为 保留 表 ， 将 不 满足 on 条 件 的 a 表 记录 添加 到 
结果 集中 。 


(4) 应 用 where 过 滤器 : where  b.customer number is nul or 








a.customer street address <> b.customer_street_address， 其 中 
b.customer number is null 过 滤 出 源 数 据 中 己 经 删除 但 维度 表 还 存在 的 记 
录 ，a.customer_street_address <> b.customer_street_address 过 滤 出 源 数 据 
修改 了 地 址 信息 的 记录 。 


HiveQL 的 select 但 询 语句 文 持 内 连接 、 外 连接 、 BEE ACRE RSS oF 
ERT, WX RRHOECT AW, FRE SSE HERNAN. m 
Hive 对 select 语 句 的 文 持 比较 完善 ， 这 点 上 已 经 和 传统 关系 数据 库 的 SQL 

非常 相似 了 。 表 8-6 总 结 了 各 种 数据 库 表 的 连接 方式 。 


表 8-6 数据库 碍 询 中 的 连接 




















定义 

da 只 返回 匹配 的 行 select A.cl,B.c2 from A join B on 
A.c3 = B.c3; 

左 外 连接 包含 左边 表 的 全 部 行 〈 不 管 右边 的 表 中 是 否 存在 | select A.cl,B.c2 from A left join B 
与 它们 匹配 的 行 ) 以 及 右边 表 中 全 部 匹配 的 行 on A.c3 = B.c3; 


右 外 连接 包含 右边 表 的 全 部 行 〈 不 管 左 边 的 表 中 是 否 存在 | select A.cl,B.c2 from A right join 
与 它们 匹配 的 行 ) 以 及 左边 表 中 全 部 匹配 的 行 B on A.c3 = B.c3; 


全 外 连接 包含 左 、 右 两 个 表 的 全 部 行 ， 不 管 在 另 一 边 的 表 | select A.cl,B.c2 from A full join B 
中 是 否 存在 与 它们 匹配 的 行 on A.c3 = B.c3; 

theta 连接 使 用 等 值 以 外 的 条 件 来 匹配 左 、 右 两 个 表 中 的 行 ”| select A.cl,B.c2 from A join B on 
A.c3 != B.c3; 

交叉 连接 生成 笛 卡 尔 积 ， 它 不 使 用 任何 匹配 或 者 选取 条 | select A.c1,B.c2 from A,B; 

件 ， 而 是 直接 将 一 个 数据 源 中 的 每 个 行 与 男 一 个 
数据 源 的 每 个 行 一 一 匹配 























-- Ahiücustomer street addresses 列 上 scd2 的 新 增 行 
insert into 


customer dim 
select 


row number() 


over (order by 


ti.customer number) + t2.sk max, 

ti.customer number, 
ti.customer name, 
ti.customer street address, 
ti.customer zip code, 
ti.customer city, 
ti.customer state, 
ti.version, 
ti.effective_date, 
ti.expiry date 

from 


select 


t2.customer number customer number, 
t2.customer name customer name, 
t2.customer street address customer street address, 
t2.customer zip code, 
t2.customer city, 
t2.customer state, 
ti.version + 1 version, 
$(hivevar:pre date) effective date, 
$(hivevar:max date) expiry date 
from 


customer dim t1 
inner join 


rds.customer t2 
on 


ti.customer number = t2.customer number 
and 


ti.expiry date = $(hivevar:pre date) 
left join 


customer dim t3 
on 


ti.customer number = t3.customer number 
and 


t3.expiry date = $[(hivevar:max date) 
where 


ti.customer street address <> 


t2.customer street address and 


t3.customer sk is null 


) Ei 
cross join 


(select coalesce(max 


(customer sk),0) sk max from 


customer dim) t2; 


上 面 这 条 语句 插入 SCD2 的 新 增 版 本 行 。 子 查询 中 用 inner join 获取 
当期 版 本 号 和 源 数 据 信息 。left join 连 接 是 必要 的 ， 否 则 如 果 多 次 执行 该 
语句 ， 会 生成 多 条 重复 的 记录 。 最 后 用 row_number() 方 法 生成 新 记录 的 
代理 键 。 新 记录 的 版 本 号 加 1， 开 始 日 期 为 执行 时 的 前 一 天 ， 过 期 日 期 
73*2200-01-01". 














-- 处 理 customer_name 列 上 的 scd1 
-- 因为 scd1 本 身 就 不 保存 历史 数据 ， 所 以 这 里 更 新 维度 表 里 的 
-- 所 有 customer_name 改 变 的 记录 ， 而 不 是 仅仅 更 新 当前 版 本 的 记录 


drop table if exists 











tmp; 
create table 


tmp as 


select 


a.customer sk, 
a.customer number, 
b.customer name, 


.Customer street address, 
.Customer zip code, 
.customer city, 

.customer state, 
.version, 
.effective_date, 
.expiry_date 

from 


f0 £0 £D £D £D t» 


e 


customer dim a, rds.customer b 
where 


a.customer number - b.customer number and 


(a.customer name «» 


b.customer name); 
delete from 


customer dim where 


customer dim.customer sk in (select 


customer sk from 


tmp); 
insert into 


customer dim select * from 


tmp; 


上 面 的 语句 处 理 SCD1。 在 关系 数据 库 中 ，SCD1 非 常 好 处 理 ， 如 在 
MySQL 中 使 用 类 似 如 下 的 语句 即 可 : 
update customer dim a, customer stg b set a.customer name = b.cu 


where a.customer number - b.customer number 
and a.customer name «» b.customer name ; 


但 是 hive 里 不 能 在 update 后 跟 多 个 表 ， 也 不 文 持 在 set 子 句 中 使 用 子 
查询 ， 它 只 支持 SET column = value 的 形式 ， 其 中 value 只 能 是 一 个 具体 
的 值 或 者 是 一 个 标量 表达 式 。 所 以 这 里 使 用 了 一 个 临时 表 存 储 需 要 更 新 
的 记录 ， 然 后 将 维度 表 和 这 个 临时 表 关 联 ， 用 先 delete 再 用 insert 代 蔡 
update。 为 简单 起 见 也 不 考虑 并 发 问题 〈 典 型 数据 仓库 应 用 的 并 发 操作 
基本 都 是 只 读 的 ， 很 少 并 发 写 ， 而 且 ETL 通 常 是 一 个 单独 在 后 台 运 行 的 
程序 ， 如 果 用 SQL 实现 ， 并 不 存在 并 发 执行 的 情况 ， 所 以 并 发 导致 的 问 
题 并 不 像 OLTP 那 样 严 重 ) 。 


-- 处 理 新 增 的 customer 记 录 
insert into 











customer dim 
select 


row number() 


over (order by 


ti.customer number) + t2.sk max, 


ti.customer number, 
ti.customer name, 
ti.customer street address, 
ti.customer zip code, 
ti.customer city, 
ti.customer state, 


${hivevar:pre_date}, 
${hivevar:max_date} 
from 


( 


select 


t1.* from 


rds.customer t1 left join 


customer dim t2 on 


ti.customer number = 
t2.customer number 
where 


t2.customer sk is null 


) t1 
cross join 


(select coalesce (max 


(customer sk),0) sk max from 


customer dim) t2; 


上 面 的 语句 装载 新 增 的 客户 记录 。 内 层 子 查询 使 用 rds.customer 和 
dw.customer_dim 的 左 外 链接 获取 新 增 的 数据 。 新 数据 的 版 本 号 为 1， 开 
始 日 期 为 执行 时 的 前 一 天 ， 过 期 日 期 为 "2200-01-01”。 同 样 使 用 
row_number() 方 法 生成 代理 键 。 到 这 里 ， 客 户 维 度 表 的 装载 处 理 代码 已 
完成 。 

4. 装载 产品 维度 表 

产品 维度 表 的 所 有 属性 都 使 用 SCD2， 处 理 方法 和 客户 表 类 似 。 

- 装载 product 维 度 


-- 设置 已 删除 记录 和 product_name、product_category 列 上 scd2 的 过 期 
update 
product dim 


set 


expiry date = $(hivevar:pre date? 
where 


product dim.product sk in 


(select 


a.product sk 
from 


(select 


product sk,product code,product name,product category 
from 


product dim where 


expiry date = ${hivevar:max_date}) a left join 


rds.product b on 


a.product_code = b.product_code 
where 


b.product_code is null or 


(a.product_name <> 


b.product_name or 


a.product category «» b.product category)); 

















-- AbXüproduct name. product category/i Escd2 3rd fr 


insert 


into 


product dim 


select 


row number ( ) 


over (order by 


ti.product code) + t2.sk max, 


Gel 
t1. 
t1 
Lie 
ts 
ti. 


from 


( 


select 


t2 


t1 


product code, 
product name, 
product category, 
version, 
effective date, 
expiry date 


.product code product code, 
t2. 
t2. 


product name product name, 
product category product category, 


.version + 1 version, 


$(hivevar:pre date) effective date, 
$(hivevar:max date) expiry date 


from 


product dim t1 
inner join 


rds.product t2 
on 


ti.product code = t2.product code 
and 


ti.expiry date = $(hivevar:pre date) 
left join 


product dim t3 
on 


ti.product code = t3.product code 
and 


t3.expiry date = $[(hivevar:max date) 
where 


(ti.product name <> 


t2.product name or 


ti.product category <> 


t2.product category) and 


t3.product sk is null 


\ Ea 
cross join 


(select coalesce (max 


(product sk),0) sk max from 


product dim) t2; 

















-- 处 理 新 增 的 product 
insert into 


product dim 
select 


row number() 


over (order by 


ti.product code) + t2.sk max, 


T 


ti.product code, 

ti.product name, 

ti.product category, 

1, 

${hivevar:pre_date}, 

${hivevar:max_date} 
from 


select 


t1.* from 


rds.product t1 left join 


product dim t2 on 


ti.product code = t2.product code 
where 


t2.product sk is null 


ixl 
cross join 


(select coalesce(max 


(product sk),0) sk max from 


product dim) t2; 
5. 装载 订单 维度 表 
订单 维度 表 的 装载 比较 简单 ， 因 为 不 涉及 维度 历史 变化 ， 
增 的 订单 号 插入 rds.order_dim 表 就 可 以 了 。 
-- 装载 order 维 度 


insert into 


order dim 
select 


row number( ) 


over (order by 


ti.order number) + t2.sk max, 
ti.order number, 
t1.version, 
ti.effective date, 
til.expiry date 


select 


order number order number, 

1 version, 

order date effective date, 

'2200-01-01' expiry date 
from 


rds.sales order, rds.cdc time 
where 


entry date »- last load and 


entry date < current load ) t1 
cross join 


(select coalesce(max 


(order sk),0) sk max from 


order dim) t2; 


上 面 语句 的 子 查 询 中 ， 将 过 渡 区 库 的 订单 表 和 时 间 惟 表 关 联 ， 用 时 
间 惟 表 中 的 两 个 字段 值 作 为 时 间 窗 口 区 间 的 两 个 端点 ， 用 entry_date >= 
last load AND entry. date < current_load 条 件 过 滤 出 上 次 执行 定期 装载 的 
日 期 到 当前 日 期 之 间 的 所 有 销售 订单 ， 装 载 到 order_dim 维 度 表 。 


6. 装载 销售 订 早 事实 表 


- -装载 销售 订单 事实 表 


insert into 

















sales order fact 
select 


order sk, 
customer sk, 
product sk, 


date sk, 
order amount 
from 


rds.sales order a, 

order dim b, 

customer dim c, 

product dim d, 

date dim e, 

rds.cdc time f 
where 


a.order number - b.order number 
and 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and 


a.entry date »- f.last load and 


a.entry date « f.current load ; 





Wy f 3 dw.sales order fact: SCA, Æ X HXrds.sales order 5 dw 
库 中 的 四 个 维度 表 ， 获 取 维 度 表 的 代理 键 和 源 数据 的 度量 值 。 这 里 只 有 
销售 金额 字段 order_amount 一 个 度量 。 和 订单 维度 一 样 ， 也 要 关联 时 间 
惟 表 ， 获 取 时 间 窗 口 作为 确定 新 增 数 据 的 过 滤 条 件 。 


7. 更 新 数据 处 理 时 间 窗 口 





最 后 更 新 时 间 惟 表 的 数据 ， 将 最 后 装载 时 间 改 为 当前 日 期 。 
-- 更 新 时 间 惟 表 的 last_1oad 字 段 


insert 


overwrite table 


rds.cdc time select 


current load, current load from 


rds.cdc time; 


将 以 上 7 步 里 的 HiveQL 语 名 合并， 就 是 regular_etl.sq] 文 件 的 全 部 内 
容 。 现 在 我 们 销售 订单 示例 的 定期 数据 装载 开发 已 经 完成 ， 下 面 进行 一 
些 测 试 ， 验 证 一 下 数据 的 正确 性 。 


测试 步骤 如 下 : 


步骤 01 在 MySQL 的 source 源 数据 库 中 准备 客户 、 产 品 和 销售 订单 
测试 数据 。 


use 


source; 


/*** 客户 数据 的 改变 如 下 : 

客户 6 的 街道 号 改 为 7777 ritter rd. (原来 是 7070 ritter rd) 

客户 7 的 姓名 改 为 distinguished agencies。〔 原 来 是 distinguished partner 
新 增 第 8 个 客户 。 


A/ 


update 











customer set 


customer street address - '7777 ritter rd.' where 


customer number - 6 ; 
update 


customer set 


customer name = 'distinguished agencies' where 


customer number - 7 ; 
insert into 


customer (customer name, customer street address, customer zip 
customer city, customer state) 
values 


('subsidiaries', '10000 wetline blvd.', 17055, 'pittsburgh', 'p 


/*** 产品 数据 的 改变 如 下 : 
产品 3 的 名 称 改 为 flat panel. (原来 是 lcd panel) 
新 增 第 四 个 产品 。 


eh 


update 





product set 


product name = 'flat panel' where 


product code = 3 ; 
insert into 


product (product name, product category) 
values 


('keyboard', 'peripheral') ; 


/*** 新 增订 单 日 期 为 2016 年 7 月 4 日 的 16 条 订单 。 ***/ 
set 





Qstart date :- unix timestamp('2016-07-04'); 
set 


Qend date := unix timestamp('2016-07-05'); 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 


1-0; 


set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount := floor(1000 + rand() 


* 9000); 
insert into temp sales order data values 


(101, 1, 1, Qorder date, Qorder date, Qamount); 


共 插 入 16 条 数据 








insert into 


sales order 
select null 


,Ccustomer number,product code,order date,entry date,order amount 


temp sales order data order by 


order date; 


commit 


步骤 02 ， 执行 regular_etl.sh 脚 本 进行 定期 装载 。 


./regular etl.sh 


步骤 03 4 "ubt 


USe 


dw; 
select * from 


customer dim; 


查询 的 部 分 结果 如 下 : 


6 6 loyal clients TOTO Ritter Rd. 17055 Pittsburgh PA 1 


2016-03-01 2016-07-04 
8 6 loyal clients 7777 Ritter Rd. 17055 Pittsburgh PA 2 
2016-07-04 2200-01-01 
7 7 Distinguished Agencies 9999 Scott St. 17050 Mechanicsburg PA 1 
2016-03-01 2200-01-01 
9 8 Subsidiaries 10000 wetline blvd. 17055 Pittsburgh PA 1 
2016-07-04 2200-01-01 


可 以 看 到 ， 客 户 6 因 为 地 址 变更 新 增 了 一 个 版 本 ， 而 客户 7 的 姓名 变 
更 直接 履 盖 了 原来 的 值 ， 新 增 了 客户 8。 注 意 客 户 6 第 一 个 版 本 的 到 期 日 
期 和 第 二 个 版 本 的 生效 日 期 同 为 "2016-07-04>， 这 是 因为 任何 一 个 SCD 
的 有 效 期 是 一 个 “ 左 财 右 开 ” 的 区 间 ， 以 客户 6 为 例 ， 其 第 一 个 版 本 的 有 
效 期 大 于 等 于 “2016-03-01”， 小 于 “2016-07-04”， 即 为 “2016-03- 
01” 到 “2016-07-03”。 














select * from 


product_dim; 


查询 的 部 分 结果 如 下 : 


3 3 LCD Panel Monitor 1 2016-03-01 2016-07-04 


4 3 Flat Panel Monitor 2 2016-07-04 2200-01-01 
5 4 KeyboardPeripheral ib 2016-07-04 2200-01-01 


可 以 看 到 ， 产 品 3 的 名 称 变更 使 用 SCD2 增 加 了 一 个 版 本 ， 新 增 了 产 
品 4 的 记录 。 


select * from 


order dim; 


查询 的 部 分 结果 如 下 : 


1 2016-07-04 2200-01-01 
112 112 1 2016-07-04 2200-01-01 
113 113 1 2016-07-04 2200-01-01 
114 114 1 2016-07-04 2200-01-01 
ERS TLS 1 2016-07-04 2200-01-01 
116 116 1 2016-07-04 2200-01-01 


116 rows selected (0.237 seconds) 


MEALLET A, 1004 E RFN RR, 167 ZR DOE IR 
载 的 。 


select * from 


sales order fact; 


查询 的 部 分 结果 如 下 : 


110 6030 3616 


8 2 
111 9 5 6030 8046 
112 T 4 6030 4978 
113 4 5 6030 7454 
114 4 5 6030 7325 
115 5 1 6030 5081 
116 5 2 6030 8391 


116 rows selected (0.196 seconds) 


可 以 看 到 ，2017 年 7 月 4 日 的 16 个 销售 订单 被 添加 ， 产 品 3 的 代理 键 
是 4 而 不 是 3， 客 户 6 的 代理 键 是 8 而 不 是 6。 


select * from 


rds.cdc time; 


Va zx 
fra ARA P: 
cdc time.last load cdc time.current load 
2016-07-05 2016-07-05 


1 rows selected (0.165 seconds) 


可 以 看 到 ， 两 个 字段 值 都 已 更 新 为 当前 日 期 。 


以 上 示例 说 明了 如 何 用 Sqdoop 和 HiveQL 实 现 初始 装载 和 定期 装载 。 
再 要 指出 的 一 点 是 ， 束 本 示例 的 环境 和 数据 量 而 言 装载 执行 速度 很 慢 ， 
一 次 定期 装载 就 需要 二 十 多 分 钟 ， 比 关系 数据 库 慢 多 了 。 但 考虑 到 Hive 
本 刁 就 只 适合 大 数据 量 的 批 处 理 任 务 ， 再 加 上 Hive 的 性 能 问题 一 直 束 被 
诉 病 ， 也 就 不 必 再 吐槽 了 。 至 此 ，ETL 过 程 已 经 实现 ， 下 一 章 将 介绍 如 
何 定 期 目 动 执行 这 个 过 程 。 











8.5 Hive 优 化 


Hive 的 执行 依赖 于 底层 的 MapReduce 作 业 ， 因 此 对 Hadoop 作 业 的 优 
化 或 者 对 MapReduce 作 业 的 调整 是 提高 Hive 性 能 的 基础 。 大 多 数 情况 


下 ， 用 户 不 需要 了 解 Hive 内 部 是 如 何 工作 的 。 但 是 当 对 Hive 上 共有 越 来 越 
多 的 经 验 后 ， 学 习 一 些 Hive 的 底层 实现 细节 和 优化 知识 ， 会 让 用 户 更 加 
高 效 地 使 用 Hive。 如 果 没 有 适当 的 调整 ， 那 么 即使 查询 Hive 中 的 一 个 小 
表 ， 有 时 也 会 耗 时 数 分 钟 才 得 到 结果 。 也 正 是 因为 这 个 原因 ，Hive 对 于 
OLAP 类 型 的 应 用 有 很 大 的 局 限 性 ， 它 不 适合 需要 立即 返回 查询 结果 的 
场景 。 然 而 ， 通 过 实施 下 面 一 系列 的 调 优 方 法 ，Hive 查 询 的 性 能 会 有 大 


Sp 


1. 启用 压缩 








压缩 可 以 使 磁盘 上 存储 的 数据 量变 小 ， 例 如 ， 文 本 文件 格式 能 够 压 
缩 40% 甚 至 更 高 比例 ， 这 样 可 以 通过 降低 VO 来 提高 查询 速度 。 除 非 产 生 
的 数据 用 于 外 部 系统 ， 或 者 存在 格式 兼容 性 问题 ， 建 议 总 是 启用 压缩 。 
压缩 与 解压 缩 会 消耗 CPU 资源 ， 但 Hive 产 生 的 MadReduce 作 业 往 往 是 IO 
密集 型 的 ， 因 此 CPU 开销 通常 不 是 问题 。 


为 了 启用 压缩 ， 需 要 查 出 所 使 用 的 Hive 版 本 支持 的 压缩 编码 方式 ， 
下 面 的 set 命 令 列 出 可 用 的 编 解 码 器 〈CDH 5.7.0 中 的 Hive) 。 





hive» set io.compression.codecs; 
io.compression.codecs-org.apache.hadoop.io.compress.DefaultCodec 
s.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache. 
ec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.i 
hive» 


个 复杂 的 Hive 得 询 在 提交 后 ， 通 第 被 转换 为 一 系列 中 间 阶 段 的 
MapReduce 作 业 ，Hive 引 擎 将 这 些 作 业 串 联 起 来 完成 整个 查询 。 可 以 将 
这 些 中 间 数 据 进行 压缩 。 这 里 所 说 的 中 间 数 据 指 的 是 上 一 个 MapReduce 
作业 的 输出 ， 这 些 输出 将 被 下 一 个 MapReduce 作 业 作为 输入 数据 使 用 。 
我 们 可 以 在 hive-site.xml 文 件 中 设置 hive.exec.compress.intermediate 属 性 
以 启用 中 间 数 据 压 缩 。 


«property» 








<name>hive.exec.compress.intermediate</name> 

<value>true</value> 

<description> This controls whether intermediate files produced 
multiple map-reduce jobs are compressed. The compression codec a 
are determined from hadoop config variables mapred.output.compre 
</property> 

<property> 

<name>hive.intermediate.compression.codec</name> 
<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
<description/> 

</property> 

<property> 

<name>hive.intermediate.compression.type</name> 
<value>BLOCK</value> 

<description/> 

</property> 


也 可 以 在 Hive 客 户 端 中 使 用 set 命 令 设 置 这 些 属性 。 


hive» set hive.exec.compress.intermediate-true; 

hive» set hive.intermediate.compression.codec-org.apache.hadoop. 
hive» set hive.intermediate.compression.type-BLOCK; 

hive> 


当 Hive 将 输出 写 入 到 表 中 时 ， 输 出 内 容 同样 可 以 进行 压缩 。 我 们 可 
以 设置 hive.exec.compress.output 属 性 启用 最 终 和 输出 压缩 。 


<property> 

<name>hive.exec.compress.output</name> 

<value>true</value> 

<description> This controls whether the final outputs of a query 
(to a local/hdfs file or a Hive table) is compressed. The compre 
codec and other options are determined from hadoop config variab 
mapred.output.compress* </description> 

</property> 


或 者 


hive» set hive.exec.compress.output-true; 

hive» set mapreduce.output.fileoutputformat.compress-true; 

hive» set 
mapreduce.output.fileoutputformat.compress.codec-org.apache.hado 
hive» set mapreduce.output.fileoutputformat.compress.type-BLOCK; 
hive> 


2. 优化 连接 
可 以 通过 配置 Map 连 接 和 倾斜 连接 的 相关 属性 提升 连接 查询 的 性 


ZI 
CC 


(1) 自动 Map 连 接 


当 连 接 一 个 大 表 和 一 个 小 表 时 ， 目 动 Map 连 接 是 一 个 非常 有 用 的 特 
性 。 如 果 司 用 了 该 特性 ， 小 表 将 保存 在 每 个 节点 的 本 地 缓存 中 ， 并 在 
Map 阶 段 与 大 表 进行 连接 。 开 局 自动 Map 连 接 提供 了 两 个 好 处 。 首 先 ， 
将 小 表 闭 进 缓存 将 市 省 每 个 数据 节点 上 的 读 取 时 间 。 其 次 ， 它 避免 了 
Hive 但 询 中 的 倾斜 连接 ， 因 为 每 个 数据 块 的 连接 操作 已 经 在 Map 阶 段 完 
成 了 7。 设置 下 面 的 属性 启用 自动 Map 连 接 属性 。 


<property> 
<name>hive.auto.convert.join</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.auto.convert.join.noconditionaltask</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.auto.convert.join.noconditionaltask.size</name> 
<value>10000000</value> 

</property> 

<property> 
<name>hive.auto.convert.join.use.nonstaged</name> 
<value>true</value> 

</property> 


说 明 : 














e hive.auto.convert.join: 是 否 启 用 基于 输入 文件 的 大 小 ， 将 普通 连 
接 转 化 为 Map 连 接 的 优化 机 制 。 


e hive.auto.convert.join.noconditionaltask: 是 否 启用 基于 输入 文件 的 











大 小 ， 将 普通 连接 转化 为 Map 连 接 的 优化 机 制 。 假 设 参与 连接 的 
K AADK) 有 N 个 ， 如 有 果 打 开 这 个 参数 ， 并 且 有 N-1 个 表 (或 
分 区 ) 的 大 小 总 和 小 于 hive.auto.convert.join.noconditionaltask.size 
参数 指定 的 值 ， 那 么 会 直接 将 连接 转 为 Map 连 接 。 
hive.auto.convert.join.noconditionaltask.size: 如 果 
hive.auto.convert.join.noconditionaltask 是 关闭 的 ， 则 本 参数 不 起 作 
用 。 人 否则 ， 如 有 果 参 与 连接 的 N 个 表 〈 或 分 区 ) 中 的 N-1 个 的 总 大 
小 小 于 这 个 参数 的 值 ， 则 直接 将 连接 转 为 Map 连 接 。 默 认 值 为 
10MB. 

e hive.auto.convert.join.use.nonstaged: 对 于 条 件 连接 ， 如 果 从 一 个 
小 的 输入 流 可 以 直接 应 用 于 join 操作 而 不 需要 过 滤 或 者 投影 ， 那 
么 不 需要 通过 MapReduce 的 本 地 任务 在 分 布 式 缓存 中 预存 。 当 前 
该 参数 在 vectorization 或 tez 执 行 引 擎 中 不 工作 。 





(20 倾斜 连接 





两 个 大 表 连 接 时 ， 会 先 基 于 连接 键 分 别 对 两 个 表 进 行 排序 ， 然 后 连 
接 它 们 。Mapper 将 特定 键 值 的 所 有 行 发 送 给 同一 个 Reducer。 例 如 ， 表 A 
的 id 列 有 1、2、3、4 四 个 值 ， 表 B 的 id 列 有 1、2、3 三 个 值 。 查 询 语 句 如 
js 





select A.id from A join B on A.id - B.id 


一 系列 Mapper 读 取 表 中 的 数据 并 基于 键 值 发 送 给 Reducer。 如 id=1 
行进 入 Reducer R1，id=2 的 行进 入 Reducer R2 等 。 这 些 Reducer 产 生 A、B 
的 交集 并 输出 。Reducer R4 只 从 A 获取 行 ， 不 会 产生 查询 结果 。 

现在 假设 id=1 的 数据 行 是 高 度 倾斜 的 ， 则 R2 和 R3 会 很 快 完 成 ， 而 
R1 需 要 很 长 时 间 ， 将 成 为 整个 查询 的 瓶 贷 。 配 置 倾斜 连接 的 相关 属性 可 
以 有 效 优化 倾斜 连接 。 





«property» 
<name>hive.optimize.skewjoin</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.skewjoin. key</name> 
<value>100000</value> 

</property> 

<property> 
<name>hive.skewjoin.mapjoin.map.tasks</name> 
<value>10000</value> 

</property> 

<property> 
<name>hive.skewjoin.mapjoin.min.split</name> 
<value>33554432</value> 

</property> 


说 明 : 


e hive.optimize.skewjoin: 是 否 为 连接 表 中 的 倾斜 键 创建 单独 的 执 
行 计 划 。 它 基于 存储 在 元 数据 中 的 倾斜 键 。 在 编译 时 ，Hive 为 倾 
笠 键 和 其 他 键 值 生 成 各 自 的 得 询 计 划 。 

hive.skewjoin.key: 决定 如 何 确定 连接 中 的 倾斜 键 。 在 连接 操作 
中 ， 如 有 果 同 一 键 值 所 对 应 的 数据 行 数 超过 该 参数 值 ， 则 认为 该 键 
是 一 个 倾斜 连接 键 。 

hive.skewjoin.mapjoin.map.tasks: 指定 倾斜 连接 中 ， 用 于 Map 连 接 
作业 的 任务 数 。 该 参数 应 该 与 hive.skewjoin.mapjoin.min.split 一 起 
使 用 ， 执 行 细 粒 上 度 的 控制 。 

hive.skewjoin.mapjoin.min.split: 通过 指定 最 小 split 的 大 小 ， 确 定 
Map 连 接 作 业 的 任务 数 。 该 参数 应 该 与 
hive.skewjoin.mapjoin.map.tasks 一 起 使 用 ， 执 行 细 粒 度 的 控制 。 














(3) 桶 Map 连 接 


如 打 连 接 中 使 用 的 表 是 按 特定 列 分 桶 的 ， 可 以 开局 桶 Map 连 接 提升 


RERE 


<property> 
<name>hive.optimize.bucketmapjoin</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.optimize.bucketmapjoin.sortedmerge</name> 
<value>true</value> 

</property> 


说 明 : 
e hive.optimize.bucketmapjoin: 是 否 尝试 桶 Map 连 接 。 


e hive.optimize.bucketmapjoin.sortedmerge: 是 否 尝试 在 Map 连 接 中 


使 用 归并 排序 。 
避免 使 用 order by 全 局 排序 


Hive 中 使 用 order by 子 句 实 现 全 局 排序 。order by 只 用 一 个 Reducer 产 
生 结 果 ， 对 于 大 数据 集 ， 这 种 做 法 效率 很 低 。 如 果 不 需要 全 局 有 序 ， 则 
可 以 使 用 sort by 子 句 ， 该 子 句 为 每 个 reducer 生 成 一 个 排 好 序 的 文件 。 如 
果 需 要 控制 一 个 特定 数据 行 流 辐 哪个 reducer， 可 以 使 用 distribute byf 
fJ, Jn: 


select 





id, name, salary, dept from 


employee 
distribute by 


dept sort by 


id asc 


, name desc 


属于 一 个 dept 的 数据 会 分 配 到 同一 个 reducer 进 行 处 理 ， 同 一 个 dept 
的 所 有 记录 按照 d、name 列 排序 。 最 终 的 结果 集 是 全 局 有 序 的 。 在 10.3 
节 还 会 讨论 Hive 中 儿 种 不 同 的 数据 排序 方法 。 


4. 司 用 Tez 执 行 引擎 


使 用 Tez 执 行 引 擎 代替 传统 的 MapReduce 引 擎 会 大 幅 提 升 Hive 查 询 
的 性 能 。 在 安装 好 Tez 后 ， 配 置 hive.execution.engine 属 性 指定 执行 引 


8E. 


«property» 
«name-hive.execution.enginec/name» 
<value>tez</value> 
<description> 
Expects one of [mr, tez, spark]. 
Chooses execution engine. Options are: 
mr (Map reduce, default), tez (hadoop 2 only), spark 
</description> 
</property> 


5. 优化 limit 操 作 


默认 时 limit 操 作 仍 然 会 执行 整个 查询， 然后 返回 限定 的 行 数 。 在 有 
些 情况 下 这 种 处 理 方式 很 浪费 ， 因 此 可 以 通过 设置 下 面 的 属性 避免 此 行 
为 。 


«property» 
<name>hive. limit .optimize.enable</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.limit.row.max.size</name> 
<value>100000</value> 

</property> 

<property> 
<name>hive.limit.optimize.limit.file</name> 
<value>10</value> 

</property> 

<property> 
<name>hive.limit.optimize.fetch.max</name> 
<value>50000</value> 

</property> 


说 明 : 
e hive.limit.optimize.enable: 是 否 启 用 limit 优 化 。 当 使 用 limit 语 名 


时 ， 对 源 数据 进行 抽样 。 
e hive.limit.row.max.size: 在 使 用 limit 做 数据 的 子 集 查询 时 保证 的 





最 小 行 数据 量 。 

e hive.limit.optimize.limit.file: 在 使 用 limit 做 数据 子 集 查询 时 ， 采 
样 的 最 大 文件 数 。 

e hive.limit.optimize.fetch.max: 使 用 简单 limit 数 据 抽 样 时 ， 人 允许 的 
最 大 行 数 。 








6. 局 用 并 行 执行 


每 条 HiveQL 语 句 都 被 转化 成 一 个 或 多 个 执行 阶段 ， 可 能 是 一 个 
MapReduce 阶 段 、 采 样 阶 段 、 归 并 阶段 、 限 制 阶段 等 。 默 认 时 ，Hive 在 
任意 时 刻 只 能 执行 其 中 一 个 阶段 。 如 果 组 成 一 个 特定 作业 的 多 个 执行 阶 
段 是 彼此 独立 的 ， 那 么 它们 可 以 并 行 执 行 ， 从 而 整个 作业 得 以 更 快 完 
成 。 通 过 设置 下 面 的 属性 局 用 并 行 执行 。 


«property» 
<name>hive.exec.parallel</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.exec.parallel.thread.number</name> 
<value>8</value> 

</property> 


说 明 : 





e hive.exec.parallel: 是 否 并 行 执 行 作业 。 
e hive.exec.parallel.thread.number: 最 多 可 以 并 行 执行 的 作业 数 。 


7. 局 用 MapReduce 严 格 模式 





Hive 提 供 了 一 个 严格 模式 ， 可 以 防止 用 户 执 行 那些 可 能 产生 负面 影 
啊 的 和 查询。 通过 设置 下 面 的 属性 启用 MapReduce 严 格 模式 。 
«property» 
<name>hive.mapred.mode</name> 


<value>strict</value> 
</property> 


严格 模式 禁止 3 种 类 型 的 查询 。 


e 对 于 分 区 表 ，where 子 句 中 不 包含 分 区 字段 过 滤 条 件 的 查询 语句 


不 允许 执行 。 
e 对 于 使 用 了 order byo WEW, HRUE limt, A 
不 允许 执行 。 


。 限制 笛 卡 尔 积 查 询 。 
8. 使 用 单一 Reduce 执 行 多 个 Group By 


通过 为 group ”by 操作 开启 单一 reduce 任 务 属性 ， 可 以 将 一 个 查询 中 


的 多 个 group by 操作 联合 在 一 起 发 送 给 单一 MapReduce 作 业 。 


<property> 
<name>hive.multigroupby.singlereducer</name> 
<value>true</value> 
<description> 
Whether to optimize multi group by query to generate singl 
If the multi group by query has common group by keys, 
it will be optimized to generate single M/R job. 
</description> 
</property> 


9. 控制 并 行 Reduce 任 务 


Hive 通 过 将 查询 划分 成 一 个 或 多 个 MapReduce 任 务 达到 并 行 的 目 
的 。 确 定 最 佳 的 mapper 个 数 和 reducer 个 数 取决 于 多 个 变量 ， 例 如 输入 的 
数据 量 以 及 对 这 些 数据 执行 的 操作 类 型 等 。 如 果 有 太 多 的 mapper 或 
reducer 任 务 ， 会 导致 启动 、 调 度 和 运行 作业 过 程 中 产生 过 多 的 开销 ， 而 
如 果 设 置 的 数量 太 少 ， 那 么 就 可 能 没有 充分 利用 好 集群 内 在 的 并 行 性 。 
对 于 一 个 Hive 碍 询 ， 可 以 设置 下 面 的 属性 来 控制 并 行 reduce 任 务 的 个 
数 。 
<property> 

<name>hive.exec.reducers.bytes.per.reducer</name> 

<value>256000000</value> 
</property> 
<property> 

<name>hive.exec.reducers.max</name> 


<value>1009</value> 
</property> 


说 明 : 





e hive.exec.reducers.bytes.per.reducer: 每 个 reducer 的 字数， 默认 
值 为 256MB 。Hive 是 按照 输入 的 数据 量 大 小 来 确定 reducer 个 数 
的 。 例 如 ， 如 果 输 入 的 数据 是 1GB， 将 使 用 4 个 reducer。 


e hive.exec.reducers.max: 将 会 使 用 的 最 大 reducer 个 数 。 


10. AH AEM 


问 量 化 特性 在 Hive ”0.13.1 版 本 中 被 首次 引入 。 通 过 查询 执行 同 量 
化 ， 使 Hive 从 单行 处 理 数据 改 为 批量 处 理 方式 ， 有 具体 来 说 是 一 次 处 理 
1024 行 而 不 是 原来 的 每 次 只 处 理 一行 ， 这 大 大 提升 了 指令 流水 线 和 缓存 
的 利用 率 ， 从 而 提高 了 表 扫 描 、 聚 合 、 过 滤 和 连接 等 操作 的 性 能 。 可 以 
设置 下 面 的 属性 启用 查询 执行 问 量化 。 

















<property> 
<name>hive.vectorized.execution.enabled</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.vectorized.execution.reduce.enabled</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.vectorized.execution.reduce.groupby .enabled</name 
<value>true</value> 

</property> 


说 明 : 


。 hive.vectorized.execution.enabled: 如 果 该 标志 设置 为 tue， 则 开启 
查询 执行 的 同 量 模式 ， 默 认 值 为 false。 

e hive.vectorized.execution.reduce.enabled: 如 果 该 标志 设置 为 true， 
则 开局 查询 执行 reduce 端 的 问 量 模式 ， 默 认 值 为 true。 

e hive.vectorized.execution.reduce.groupby.enabled: 如 果 该 标志 设置 
为 tue， 则 开局 查询 执行 reduce 闹 group by 操作 的 癌 量 模式 ， 默 认 
值 为 true。 


11. 司 用 基于 成 本 的 优化 需 


Hive 0.14 版 本 开始 提供 基于 成 本 优化 器 (CBO) 特性 。 使 用 过 
Oracle 数 据 库 的 读者 对 CBO 一 定 不 会 卫生。 与 Oracle 类 似 ，Hive 的 CBO 





也 可 以 根据 查询 成 本 制定 执行 计划 ， 例 如 确定 表 连 接 的 顺序 、 以 何 种 方 
式 执行 连接 、 使 用 的 并 行 度 等 。 设 置 下 面 的 属性 司 用 基于 成 本 优化 句 。 


<property> 
<name>hive.cbo.enable</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.compute.query.using.stats</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.stats.fetch.partition.stats</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.stats.fetch.column.stats</name> 
<value>true</value> 

</property> 


Vi 8j: 








e hive.cbo.enable: 控制 是 否 启 用 基于 成 本 的 优化 器 ， 默 认 值 是 
true。Hive 的 CBO 使 用 Apache Calcite 框 架 实现 。 
。 hive.compute.query.using.stats: 该 属性 的 默认 值 为 false。 如 果 设 
置 为 true，Hive 在 执行 某 些 查询 时 ， 例 如 select count(1), AAA 
元 数据 存储 中 保存 的 状态 信息 返回 结果 。 为 了 收集 基本 状态 信 
上 县， 需要 将 hive.stats.autogather 属 性 配置 为 rue。 为 了 收集 更 多 的 
状态 信息 ， 需 要 运行 analyze tablet ti. 
hive.stats.fetch.partition.stats: 该 属性 的 默认 值 为 rue。 操 作 树 中 
所 标识 的 统计 信息 ， 需 要 分 区 级 别 的 基本 统计 ， 如 每 个 分 区 的 行 
数 、 数 据 量 大 小 和 文件 大 小 等 。 分 区 统计 信息 从 元 数据 存储 中 获 
取 。 如 有 果 存 在 很 多 分 区 ， 要 为 每 个 分 区 收集 统计 信息 可 能 会 消耗 
大 量 的 资源 。 这 个 标志 可 被 用 于 禁止 从 元 数据 存储 中 获取 分 区 统 
计 。 当 该 标志 设置 为 false 时 ，Hive 从 文件 系统 获取 文件 大 小 ， 并 
根据 表 结 构 估 算 行 数 。 

















e hive.stats.fetch.column.stats: 该 属性 的 默认 值 为 false。 操 作 树 中 所 
标识 的 统计 信息 ， 需 要 列 统 计 。 列 统计 信息 从 元 数据 存储 中 获 
取 。 如 果 存 在 很 多 列 ， 要 为 每 个 列 收集 统计 信息 可 能 会 消耗 大 量 
的 资源 。 这 个 标志 可 被 用 于 禁止 从 元 数据 存储 中 获取 列 统计 。 


可 以 使 用 HiveQL 的 analyze table 语 句 收集 一 个 表 中 所 有 列 相关 的 基 
本 统计 信息 ， 例 如 下 面 的 语句 收集 sales_order_fact 表 的 统计 信息 。 


analyze table 


sales order fact compute statistics for 


columns; 
analyze table 


sales order fact compute statistics for 


columns order number, customer sk; 


12. 使 用 ORC 文 件 格式 


ORC 文 件 格 式 可 以 有 效 提 升 Hive 查 询 的 性 能 。 图 8-4 由 Hortonworks 
公司 提供 ， 显 示 了 Hive 不 同文 件 格 式 的 大 小 对 比 。 


File Size Spr: tora Encoding Methods 


set: TPC-DS Scale 500 Dataset 


505 GB impala 
(14% Smaller] 221 GB Hive 12 
(62% Smaller) 131 GB 
(78% Smaller) 





Encoded with 


& fast access 
Encoded with 
Parquet 


ORCFile 


图 8-4 Hive 文 件 格 式 与 大 小 对 比 
8.6 


小 结 


(1) 数据 清洗 是 转换 过 程 的 一 个 重要 步 又 
审查 和 校 验 的 过 程 ， 
数据 一 致 性 。 


TB 写 
百 BE. 


对 数据 进行 重新 
目的 在 于 删除 重复 信息 、 纠 正 存 在 的 错误 ， 并 提 人 4 
(2) Hive 是 Hadoop 生 态 圈 的 数据 仓库 软件 ， 使 用 类 似 于 SQL 的 语 

管理 分 布 式 存储 上 的 大 数据 集 


(3) HiveServer2 提 供 基 于 Thrift 的 Hive 服 务 和 一 个 Jetty 
器 ， 基 于 Thrift 的 Hive 服 务 是 HS2 的 核心 


Web 服 务 
(4) Hive 通 过 Thrift 提 供 Hive 元 数据 存储 服务 


(5) Beeline 是 为 与 HiveServer2 服 务 器 进 


行 交 互 而 开发 的 新 命令 行 

工具 。Hive 建 议 使 用 新 的 Beeline 代 蔡 老 版 本 的 Hive CLER F tig 
(6) 使 用 row_number0O 窗 口 函 数 或 者 使 用 一 个 名 为 
UDFRowSequence 的 用 户 自 定 义 函 数 可 以 生成 代理 键 


(7) 用 Sqoop 和 HiveQL 能 够 实现 多 维 数据 仓库 的 初始 闭 载 和 定期 
(8) 通过 适当 地 配置 相关 属性 ， 可 以 有 效 优化 Hive 碍 询 
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一 旦 数据 仓库 开始 使 用 ， 就 需要 不 断 从 源 系 统 给 数据 仓库 提供 新 数 
据 。 为 了 确保 数据 流 的 稳定 ， 需 要 使 用 所 在 平台 上 可 用 的 任务 调度 器 来 
调度 ETL 定 期 执行 。 调 度 模 块 是 ETL 系 统 必 不 可 少 的 组 成 部 分 ， 它 不 但 
是 数据 仓库 的 基本 需求 ， 也 对 项 目的 成 功 起 看 举足轻重 的 作用 。 


操作 系统 一 般 都 为 用 户 提 供 调度 作业 的 功能 ， 如 Windows 的 “计划 
任务 ”和 UNIX/Linux 的 cron 系 统 服务 。 绝 大 多 数 Hadoop 系 统 都 运行 在 
Linux 之 上 ， 因 此 本 章 详 细 讨 论 两 种 Linux 上 和 定时 目 动 执行 ETL 作 业 的 方 
案 。 一 种 是 经 典 的 crontab， 这 是 操作 系统 自 带 的 功能 ， 二 是 Hadoop 生 态 
中 的 Oozie 组 件 。 为 了 演示 Hadoop 对 数据 仓库 的 支持 能 力 ， 我 们 的 示 
例 将 使 用 后 者 实现 ETL 执 行 自 动 化 。 








9.1 crontab 


上 一 章 我 们 已 经 准备 好 用 于 定期 装载 的 regular_etl.sh ”shell 脚 本 文 
件 ， 可 以 很 容易 地 用 crontab 命 令 创 建 一 个 任务 ， 定 期 运行 此 脚本 。 


# 修改 文件 属性 为 可 执行 

chmod 755 /root/regular etl.sh 

# 编辑 crontab 文 件 内 容 

crontab -e 

# 添加 如 下 一 行 ， 指 定 每 天 2 点 执行 定期 装载 作业 ， 然 后 保存 退出 


02* * * /root/regular etl.sh 




















这 就 可 以 了 ， 需 要 用 户 做 的 就 是 如 此 简单 ， 其 他 的 事情 交 给 cron 系 
统 服务 去 完成 。 提 供 cron 服 务 的 进程 名 为 ccond， 这 是 Linux 下 一 个 用 来 


周期 性 执行 茶 种 任务 或 处 理 茶 些 事件 的 守护 进程 。 当 安装 完 操作 系统 
后 ， 会 目 动 月 动 crond 进 程 ， 它 每 分 钟 会 定期 检查 是 否 有 要 执行 的 任 
务 ， 如 果 有 则 目 动 执行 该 任务 。 


Linux 下 的 任务 调度 分 为 两 类 ， 系 统 任务 调度 和 用 户 任务 调度 。 














e 系统 任务 调度 : 系统 需要 周期 性 执行 的 工作 ， 比 如 写 缓存 数据 到 
硬盘 、 日 志清 理 等 。 在 ,etc 目录 下 有 一 个 crontab 文 件 ， 这 个 就 是 
系统 任务 调度 的 配置 文件 。 

e 用户 任务 调度 : 用 户 要 定期 执行 的 工作 ， 比 如 用 户 数据 备份 、 定 
时 邮件 提醒 等 。 用 户 可 以 使 用 crontab 命 令 来 定制 自己 的 计划 任 
务 。 所 有 用 户 定 义 的 crontab 文 件 都 被 保存 在 /Var/spool/cron 目 录 
中 ， 其 文件 名 与 用 户 名 一 致 。 


1. crontab 权 限 





Linux 系 统 使 用 一 对 allow/deny 文 件 组 合 判断 用 户 是 否 具 有 执行 
crontab 的 权限 。 如 果 用 户 名 出 现在 /etc/cron.allow 文 件 中 ， 则 该 用 户 允 许 
执行 crontab 命 令 。 如 果 此 文件 不 存在 ， 那 么 如 果 用 户 名 没有 出 现 
在 /etc/cron.deny 文 件 中 ， 则 该 用 户 人 允许 执行 crontab 命 令 。 如 果 只 存在 
cron.deny 文 件 ， 并 且 该 文件 是 空 的 ， 则 所 有 用 户 都 可 以 使 用 crontab 命 
令 。 如 果 这 两 个 文件 都 不 存在 ， 那 么 只 有 root 用 户 可 以 执行 crontab 命 
令 。allow/deny 文 件 由 每 行 一 个 用 户 名 构成 。 


2. crontab 命 令 


通过 crontab 命 令 ， 我 们 可 以 在 固定 间隔 的 时 间 点 执行 指定 的 系统 指 
令 或 shell 脚 本 。 时 间 间 隔 的 单位 可 以 是 分 钟 、 小 时 、 日 、 月 、 周 及 以 上 
的 任意 组 合 。crontab 命 令 格式 如 下 : 


crontab [-u user] file 


crontab [-u user] [ -e | -1 | -r ] 
说 明 : 


e -u user: 用 来 设 定 某 个 用 户 的 crontab 服 务 ， 此 参数 一 般 由 root 用 
户 使 用 。 

o file: file 是 命令 文件 的 名 字 ， 表 示 将 fle 作 为 crontab 的 任务 列表 文 
件 并 载 入 crontab 。 如 果 在 命令 行 中 没有 指定 这 个 文件 ，crontab 命 
令 将 接受 标准 输入 ， 通 常 是 键盘 上 键入 的 命令 ， 并 将 它们 载 入 
crontab。 

e -e: 编辑 某 个 用 户 的 crontab 文 件 内 容 。 如 果 不 指定 用 户 ， 则 表示 
编辑 当前 用 户 的 crontab 文 件 。 如 果 文 件 不 存在 ， 则 创建 一 个 。 

e -]: 显示 某 个 用 户 的 crontab 文 件 内 容 ， 如 果 不 指 定 用 户 ， 则 表示 
显示 当前 用 户 的 crontab 文 件 内 容 。 

e -r: 从 /var/spool/cron 目 录 中 删除 某 个 用 户 的 crontab 文 件 ， 如 果 不 
指定 用 户 ， 则 默认 删除 当前 用 户 的 crontab 文 件 。 

















注意 : ”如果 不 经 意 地 输入 了 不 市 任何 参数 的 crontab 命 令 ， 不 要 使 
用 Control-d 退 出 ， 因 为 这 会 删除 用 户 所 对 应 的 crontab 文 件 中 的 所 有 条 
日 。 代 蔡 的 方法 是 用 Control-c 退 出 。 


3. crontab 文 件 
用 户 所 建立 的 crontab 文 件 中 ， 每 一 行 都 代表 一 项 任务 ， 每 行 的 每 个 


字段 代表 一 项 设置 。 它 的 格式 共 分 为 六 个 字段 ， 前 五 段 是 时 间 设 定 段 ， 
第 六 段 是 要 执行 的 命令 段 ， 格 式 如 下 : 


Q---------------- 分 钟 (0 - 59) 


Q------------- 小 时 (0 - 23) 
由 日 期 (1 - 31) 


| 

| 

tA E sere Ht} (1 - 12) 

| | d 1 s 星期 (0 - 6， 代表 周 日 到 周一 ) 
| 


AM 
a E ON Ide om Ed iri. TARAS, BOUJEBOASIUNEA X ft. 


在 以 上 各 个 时 间 字 段 中 ， 还 可 以 使 用 如 下 特殊 字符 : 





e ES C): 代表 所 有 可 能 的 值 ， 例 如 “月 份 ”* 字 段 如 果 是 星 号 ， 
则 表示 在 满足 其 他 字段 的 制约 条 件 后 每 月 都 执行 该 命令 操作 。 
e 去 号 C): 可 以 用 逗号 隔 开 的 值 指 定 一 个 列表 范围 ， 例 
Ue “195,789. 
e HAL C): 可 以 用 整数 之 间 的 中 杠 表示 一 个 整数 范围 ， 例 如 “2- 
6” 表 示 “2,3,4,5,6”。 
IER OD : 可 以 用 正 笠 线 指 定时 间 的 间 隅 频率 ， 例 如 “0- 
23/2” 表 示 每 两 小 时 执行 一 次 。 同 时 正 斜 线 可 以 和 星 号 一 起 使 
用 ， 例 如 */10， 如 果 用 在 “分 钟 ”* 字 段 ， 表 示 每 十 分 钟 执行 一 次 。 
注意 ，“ 日 期 * 和 “星期 ”字段 都 可 以 指定 哪 天 执行 ， 如 果 两 个 字段 都 
设置 了 ， 则 执行 的 日 期 是 两 个 字段 的 并 集 。 











4. crontab 示 例 


分 钟 执行 一 次 command 

* * * command 

每 小 时 的 第 3 和 第 15 分 钟 执行 

* * * * command 

上 午 8 点 到 11 点 的 第 3 和 第 15 分 钟 执行 

8-11 * * * command 

隔 两 天 的 上 午 8 QR DIT 
8-11 */2 * * comma 

每 个 星期 一 的 上 午 8 SILLAS SRUR 15 EMT 
8-11 * * 1 command 

每 晚 的 21 : 30 执行 

021* * * command 

月 1、10、22 日 的 4:45 执 行 

1,10,22 * * command 


ee 


& 


BD dk QO db CO db CO HW dE CO 3b +H 
& ny 


5 


A 


# 每 周 六 、 周 日 的 1:10 执 行 

101* * 6,0 command 

每 天 18 :00 至 23 :00 之 间 每 隔 30 分 钟 执行 

30 18-23 * * * command 

每 星期 六 的 晚上 11:00 执 行 

23 * * 6 command 

每 一 小 时 执行 一 次 

*/1* * * command 

晚上 11 点 到 早上 7 点 之 间 ， 每 隔 一 小 时 执行 一 次 
23-7/1 * * * command 

每 月 的 4 号 与 每 周一 到 周三 的 11 点 执行 

11 4 * 1-3 command 

一 月 一 号 的 4 点 执行 

411 * command 

每 小 时 执行 /etc/cron.hourly 目 录 内 的 脚本 
01 * * * * root run-parts /etc/cron.hourly 


说 明 : run-parts Jj HIRR, PTA E HoK TAS 可 执行 权限 的 文件 。 


- 








dk C dt O db s db o db CO dk CO dt 








5. crontab 环 境 


有 时 我 们 创建 了 一 个 crontab 任 务 ， 但 是 这 个 任务 却 无 法 目 动 执 行 ， 
而 手动 执行 脚本 却 没 有 问题 ， 这 种 情况 一 般 是 由 于 在 crontab 文 件 中 没有 
配置 环境 变量 引起 的 。cron 从 用 户 所 在 的 主 目录 中 使 用 shell 调 用 需要 执 
行 的 命令 。cron 为 每 个 shell 提 供 了 一 个 默认 的 环境 ，Linux 下 的 定义 如 
Ts 
SHELL=/bin/bash 
PATH=/sbin:/bin:/usr/sbin:/usr/bin 


MAILTO= 用 户 名 
HOME= 用 户主 目录 


在 crontab 文 件 中 定义 多 个 调度 任务 时 ， 需 要 特别 注意 的 一 个 问题 就 
征 环境 变量 的 设置 ， 因为 我 们 手动 执行 某 个 脚本 时 ， 是 在 当前 shell 环 境 
下 进行 的 ， 程 序 能 找到 环境 变量 ， 而 系统 自动 执行 任务 调度 时 ， 除 了 默 
认 的 环境 ， 是 不 会 加 载 任何 其 他 环境 变量 的 。 因 此 就 需要 在 crontab 文 件 
中 指定 任务 运行 所 需 的 所 有 环境 变量 。 


不 要 假定 cron 知 道 所 需要 的 特殊 环境 ， 它 其 实 并 不 知道 。 所 以 用 户 





要 保证 在 shell 脚 本 中 提供 所 有 必要 的 路 径 和 环境 变量 ， 除 了 一 些 上 自动 设 
置 的 全 局 变量 。 以 下 三 扣 需 要 注意 : 


e. 脚本 中 涉及 文件 路 径 时 写 绝对 路 径 ; 
e 脚本 执行 要 用 到 环境 变量 时 ， 通 过 source 命 令 显 式 引 入 ， 例 如 : 


#!/bin/sh 
source /etc/profile 


e 当 手 动 执行 脚本 没 问 题 ， 但 是 crontab 不 执行 时 ， 可 以 尝试 在 
crontab 中 直接 引入 环境 变量 解决 问题 ， 例 如 : 


0* * * * , /etc/profile;/bin/sh /path/to/myscript.sh 


6. 重 定 同 输 出 邮件 


默认 时 ， 每 条 任务 调度 执行 完毕 ， 系 统 都 会 将 任务 输出 信息 通过 电 
子 邮件 的 形式 发 送 给 当前 系统 用 户 。 这 样 日 积 月 累 ， 日 志 信息 会 非常 
大 ， 可 能 会 影响 系统 的 正常 运行 。 因 此 ， 将 每 条 任务 进行 重 定 同 处 理 非 
常 重要 。 可 以 在 crontab 文 件 中 设置 如 下 形式 ， 忽 略 日 志 输 出 : 


© */3* * * /usr/local/myscript.sh >/dev/null 2>&1 








“>/dev/null 2>&1” 表 示 先 将 标准 输出 重 定 癌 到 /dev/null， 然 后 将 标准 
错误 重 定 同 到 标准 输出 。 由 于 标准 输出 已 经 重 定 同 到 了 /dev/null， 因 此 
标准 错误 也 会 重 定向 到 /dev/null， 这 样 日 志 输 出 问题 就 解决 了 。 


7. 生成 日 志文 件 


可 以 将 crontab 执 行 任 务 的 输出 信息 重 定 各 到 一 个 自 定 义 的 日 志文 件 
中 ， 例 如 : 


8 * * * rm /home/someuser/tmp/* > /home/someuser/cronlogs/clean_ 


9.2 Oozie 人 简介 


除了 利用 操作 系统 提供 的 功能 以 外 ，Hadoop 生 态 圈 的 工具 也 可 以 完 
成 同样 的 调度 任务 ， 而 且 更 灵活 ， 这 个 组 件 就 是 Oozie。 

Oozie 是 一 个 管理 Hadoop 作 业 、 可 伸缩 、 可 扩展 、 可 靠 的 工作 流 调 
度 系统 ， 它 内 部 定义 了 三 种 作业 : 工作 流 作 业 、 协 调 器 作业 和 Bundle 作 
业 。 工 作法 作业 是 由 一 系列 动作 构成 的 有 辣 无 环 图 CDAGs) ， 协 调 器 
作业 是 按时 间 频 率 周 期 性 触发 Oozie 工 作 流 的 作业 ，Bundle 管 理 协 调 器 
作业 。Oozie 文 持 的 用 户 作 业 类 型 有 Java map-reduce、Streaming map- 
reduce、Pig、Hive、Sqoop 和 Distcp， 及 其 Java 程 序 和 shell 脚 本 或 命令 等 
特定 的 系统 作业 。 


Oozie 项 目 经 历 了 三 个 主要 阶段 。 第 一 版 Oozie 是 一 个 基于 工作 流 引 
擎 的 服务 器 ， 通 过 执行 Hadoop MapReduce 和 Pig 作 业 的 动作 运行 工作 流 
作业 。 第 二 版 Oozie 是 一 个 基于 协调 器 引擎 的 服务 器 ， 按 时 间 和 数据 触 
发 工作 流 执行 。 它 可 以 基于 时 间 (如 每 小 时 执行 一 次 ) 或 数据 可 用 性 
(如 等 待 输 入 数据 完成 后 再 执行 连续 运行 工作 流 。 第 三 版 00zie 是 一 
个 基于 Bundle 引 擎 的 服务 器 。 它 提供 更 高 级 别 的 抽象 ， 批 量 处理 一 系列 
协调 器 应 用 。 用 户 可 以 在 bundle 级 别 启 动 、 停 止 、 挂 起 、 继 续 、 重 做 协 
调 器 作业 ， 这 样 可 以 更 好 地 人 简化 操作 控制 。 


使 用 Oozie 主 要 基于 以 下 两 点 原因 : 























e 在 Hadoop 中 执行 的 任务 有 了 时候 需要 把 多 个 MapReduce 作 业 连 接 到 
一 起 执行 ， 或 者 需要 多 个 作业 并 行 处 理 。Oozie 可 以 把 多 个 
MapReduce 作 业 组 合 到 一 个 逻辑 工作 单元 中 ， 从 而 完成 更 大 型 的 
任务 。 

从 调度 的 角度 看 ， 如 果 使 用 crontab 的 方式 调用 多 个 工作 流 作业 ， 
可 能 需要 编写 大 量 的 脚本 ， 还 要 通过 脚本 来 控制 好 各 个 工作 流 作 





业 的 执行 时 序 问题 ， 不 但 不 好 维护 ， 而 且 监 控 也 不 方便 。 基 于 这 
样 的 背景 ，Oozie 提 出 了 Coordinator 的 概念 ， 它 能 够 将 每 个 工作 
流 作 业 作 为 一 个 动作 来 运行 ， 相 当 于 工作 流 定义 中 的 一 个 执行 节 
点 ， 这 样 束 能 够 将 多 个 工作 流 作 业 组 成 一 个 称 为 Coordinator Job 
的 作业 ， 并 指定 触发 时 间 和 频率 ， 还 可 以 配置 数据 集 、 并 发 数 


^ 
等 。 





9.2.1 Oozie 的 体系 结构 


Oozie 的 体系 结构 如 图 9-1 所 示 。 


Oozie — Architecture 











Workflow 
Definitions 
Oozie Current 
- urre 
Client Workflow 
Details 


Callbacks 
Polling 





图 9-1 Oozie 体 系 结构 








Oozie 是 一 种 Java Web 应 用 程序 ， 它 运行 在 Java ” Servlet 容器， 即 
Tomcat 中 ， 并 使 用 数据 库 来 存储 以 下 内 容 : 


。 工作 流 定义 。 
。 当前 运行 的 工作 流 实 例 ， 包 括 实例 的 状态 和 变量 。 
Oozie 工 作 流 是 放置 在 DAG (有 问 无 环 图 Direct Acyclic Graph) 中 的 


一 组 动作 ， 例 如 ，Hadoop 的 Map/Reduce 作 业 、Pig 作 业 等 。DAG 控 制 动 
作 的 依赖 关系 ， 指 定 了 动作 执行 的 顺序 。Oozie 使 用 hPDL 这 种 XML 流程 
定义 语言 来 描述 这 个 图 。 

hPDL 是 一 种 很 简洁 的 语言 ， 它 只 会 使 用 少数 流程 控制 节点 和 动作 
节点 。 控 制 节点 会 定义 执行 的 流程 ， 并 包含 工作 流 的 起 点 和 终点 

Cstart、end 和 fail 节 点 ) 以 及 控制 工作 流 执行 路 径 的 机 制 〈decision、 

fork 和 join 节点 ) 。 动 作 贡 点 是 实际 执行 操作 的 部 分 ， 通 过 它们 工作 流 
会 触发 执行 计算 或 者 处 理 任务 。Oozie 为 以 下 类 型 的 动作 提供 支持 : 
Hadoop MapReduce、Hadoop HDFS、Pig、Java 和 Oozie 的 子 工 作 流 。 而 
SSH 动 作 已 经 从 Oozie schema 0.2 之 后 的 版 本 中 移 除了 。 


所 有 由 动作 节点 触发 的 计算 和 处 理 任务 都 不 在 Oozie 中 运行 。 它 们 
是 由 Hadoop 的 MapReduce 框 架 执 行 的 。 这 种 低 耘 合 的 设计 方法 让 Oozie 
可 以 有 效 利 用 Hadoop 的 负载 平衡 、 灾 难 恢复 等 机 制 。 这 些 任务 主要 是 串 
行 执 行 的 ， 只 有 文件 系统 动作 例外 ， 它 是 并 行 处 理 的 。 这 意味 着 对 于 大 
多 数 工 作 流 动作 触发 的 计算 或 处 理 任务 类 型 来 说 ， 在 工作 流 操作 转换 到 
工作 流 的 下 一 个 节点 之 前 都 需要 等 待 ， 直 到 前 面 节 点 的 计算 或 处 理 任务 
结束 了 之 后 才能 够 继续 。Oozie 可 以 通过 两 种 不 同 的 方式 来 检测 计算 或 
处 理 任 务 是 否 完 成 ， 这 就 是 回调 和 轮 询 。 当 Oozie 启 动 了 计算 或 处 理 任 
务 时 ， 它 会 为 任务 提供 唯一 的 回调 URL， 然 后 任务 会 在 完成 的 时 候 发 送 
通知 给 这 个 特定 的 URL。 在 任务 无 法 触发 回调 URL 的 情况 下 (可 能 是 因 
为 任何 原因 ， 比 方 说 网 络 内 断 ) ， 或 者 当 任 务 的 类 型 无 法 在 完成 时 触发 
回调 UREL 的 时 候 ，Oozie 有 一 种 机 制 ， 可 以 对 计算 或 处 理 任务 进行 轮 
询 ， 从 而 能 够 判断 任务 是 否 完成 。 

Oozie 工 作 流 可 以 参数 化 ， 例 如 在 工作 流 定 义 中 使 用 像 ${inputDir} 
之 类 的 变量 等 。 在 提交 工作 流 操 作 的 时 候 ， 我 们 必须 提供 参数 值 。 如 果 
经 过 合适 地 参数 化 ， 比 如 使 用 不 同 的 输出 目录 ， 那 么 多 个 同样 的 工作 流 
操作 可 以 并 发 执行 。 






































一 些 工 作 流 是 根据 需要 触发 的 ， 但 是 大 多 数 情 况 下 ， 我 们 有 必要 基 
于 一 定 的 时 间 段 、 数 据 可 用 性 或 外 部 事件 来 运行 它们 。Oozie 协 调 系统 
(Coordinator system) 让 用 户 可 以 基于 这 些 参数 来 定义 工作 流 执 行 计 
划 。Oozie 协 调 程序 让 我 们 可 以 用 谓词 的 方式 对 工作 流 执 行 触发 器 进行 
建 模 ， 谓 词 可 以 是 时 间 条 件 、 数 据 条 件 、 内 部 事件 或 外 部 事件 。 工 作 流 
作业 会 在 谓词 得 到 满足 的 时 候 启 动 。 不 难看 出 ， 这 里 的 谓词 ， 其 作用 和 
SQL 语句 的 WHERE 子 句 中 的 谓词 类 似 ， 本 质 上 都 是 在 满足 菏 些 条 件 时 
fit AR RE SETTE 

有 了 时， 我 们 还 需要 连接 定时 运行 、 但 时 间 间 隔 不 同 的 工作 流 操 作 。 
多 个 以 不 同 频 率 运 行 的 工作 流 的 输出 会 成 为 下 一 个 工作 流 的 输入 。 把 这 
些 工作 流连 接 在 一 起 ， 会 让 系统 把 它 作 为 数据 应 用 的 管道 来 引用 。 
Oozie 协 调 程序 文 持 创建 这 样 的 数据 应 用 管道 。 

















9.2.2 CDH 5.7.0 中 的 Oozie 


CDH 5.7.0 中 ，Oozie 的 版 本 是 4.1.0， 其 元 数据 存储 使 用 
MySQL 〈4.4 节 CDH 安 装 中 有 相关 配置 ) 。 关 于 CDH 5.7.0 中 Oozie 的 属 
性 ， 参 考 以 下 链接 : 


https://www.cloudera.com/documentation/enterprise/latest/topics/cm_prc 





9.3 ”建立 定期 装载 工作 流 

对 于 刚 接触 Oozie 的 用 户 来 说 ， 前 面 介 绍 的 概念 过 于 抽象 ， 不 易 理 
解 ， 那 么 就 让 我 们 一 步 步 创 建 销售 订单 示例 EIL 的 工作 流 ， 在 实例 中 学 
习 Oozie 的 特性 和 用 法 。 


1. 修改 资源 配置 


Oozie 运 行 需 要 使 用 较 高 的 内 存 资源 ， 因 此 要 将 以 下 两 个 YARN 参 
数 的 值 调 大 : 


e yarn.nodemanager.resource.memory-mb: NodeManage 总 的 可 用 物 
理 内 存 。 
e yarn.scheduler.maximum-allocation-mb: 一 个 MapReduce 任 务 可 申 


请 的 最 大 内 存 。 
如 果 分 配 的 内 存 不 足 ， 在 执行 工作 流 作 业 时 会 报 类 似 下 面 的 错误 : 


org.apache.oozie.action.ActionExecutorException: JA009: 
org.apache.hadoop.yarn.exceptions.InvalidResourceRequestExceptio 
requested memory < 0, or requested memory > max configured, requ 
maxMemory-1500 





我 们 的 实验 环境 中 ， 每 个 Hadoop 节 点 所 在 虚拟 机 的 总 物理 内 存 为 
8GB， 所 以 把 这 两 个 参数 都 设置 为 2GB。 修 改 的 方法 有 两 种 ， 可 以 编辑 
yarn-site.xml 文 件 里 的 属性 ， 如 : 


<property> 

<name>yarn.nodemanager . resource .memory-mb</name> 
<value>2000</value> 

</property> 

<property> 
<name>yarn. scheduler .maximum-allocation-mb</name> 
<value>2000</value> 

</property> 


或 者 在 Cloudera Manager 中 修改 ， 
yarn.nodemanager.resource.memory-mb 2 Zi (t Y ARNJIR 5 f) NodeManager 
JG HB, yarn.scheduler.maximum-allocation-mb 2 Zt Æ Y ARN Ht AS WY 


ResourceManager 范 围 里 。 无 论 使 用 哪 种 方法 ， 修 改 后 都 需要 保存 更 改 
并 重启 Hadoop 集 和 群 。 





2. 启用 Oozie Web Console 


默认 安装 CDH 时 ，Oozie Web Console 是 禁用 的 ， 为 了 后 面 方便 监控 
Oozie 作 业 的 执行 ， 需 要 将 其 改 为 启用 状态 。“ 局 用 Oozie 服 务 器 Web 控 制 
台 ” 属 性 在 Oozie 服 务 的 “Oozie Server Default Group” 里 。 有 具体 的 做 法 是 : 








35:901, 下 载 ext-2.2 包 ， 解 压缩 到 Oozie 服 务 器 实例 所 在 节点 
的 /var/ib/oozie/ 目 录 下 。 


#024 登录 Cloudera Manager 管 理 控制 台 ， 进 入 Oozie 服 务 页 面 。 
步骤 034。 PEME mE. 


步骤 044 定位 “启用 Oozie 服 务 器 Web 控制 台 ” 属 性 ， 或 者 在 搜索 框 中 
输入 该 属性 名 碍 找 。 


步骤 05 选择 “局 用 Oozie 服 务 器 Web 控 制 台 ”的 复 选 框 。 
ROGA 单 击 “ 保 和 存 更 改 ” 按 钮 提交 所 做 的 修改 。 
41807 / 重启 Oozie 服 务 。 





3. 启动 Sqoop 的 share metastore service 


定期 装载 工作 流 需 要 用 Oozie 调 用 Sqoop 执 行 ， 这 需要 开启 Sgoop 的 
元 数据 共享 存储 ， 命 令 如 下 : 


sqoop metastore > /tmp/sqoop metastore.log 2>&1 & 





metastore 工 具 配 置 Sqoop 作 业 的 共享 元 数据 信息 存储 ， 它 会 在 当前 
主机 局 动 一 个 内 置 的 HSQLDB 共 享 数据 库 实 例 。 客 户 端 可 以 连接 这 个 
metastore， 这 样 允 许多 个 用 户 定义 并 执行 metastore 中 存储 的 Sqoop 作 
业 。metastore 库 文件 的 存储 位 置 由 sqoop-site.xml 中 的 
sqoop.metastore.server.location 属 性 配置 ， 它 指 问 一 个 本 地 文件 。 如 果 不 
设置 这 个 属性 ，Sdqoop 元 数据 默认 存储 在 一 /.sqoop 目 录 下 。 


如 果 碰 到 用 Oozie 工 作 流 执 行 Sqoop 命 令 是 成 功 的 ， 但 执行 Sqoop 作 
业 却 失败 的 情况 ， 可 以 参考 “Oozie 系 列 (3) 之 解决 Sqoop Job 无 法 运行 的 问 
题 ” 这 篇 文章 。 该 文中 对 这 个 问题 有 很 详细 的 分 析 ， 并 提供 了 解决 方 
案 ， 其 访问 地 址 是 : 








http://www. lamborryan.com/oozie-sqoop-fail/ 


4. 连接 metastore 重 建 sqoop job 


我 们 在 上 一 章 中 建立 了 一 个 增 量 抽取 sales_order 表 数据 的 Sqoop 作 
业 ， 但 其 元 数据 并 没有 存储 在 shared metastore 里 ， 所 以 需要 使 用 以 下 的 
命令 进行 重建 : 





last value-'sqoop job --show myjob incremental import | grep inc 
'{print $3} © 

sqoop job --delete myjob incremental import 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 


--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales order 和 

--columns "order number, customer number, product code, order da 
N 

--hive-import \ 

--hive-table rds.sales_order \ 

--incremental append \ 

--check-column order number \ 

--last-value $last value 


在 上 面 命令 的 第 一 行 中 ， 先 用 sqoop 的 --show 选 项 查询 最 后 一 次 执行 
定期 闭 载 后 incremental.last.value 的 值 ， 并 将 这 个 值 赋 给 名 为 last_value 的 
shell 变 量 。 在 创建 作业 命令 的 最 后 一 行 中 ，--last-value 选 项 将 当前 最 大 
值 作为 参数 。 和 上 一 章 的 myjob_incremental_import 作 业 创 建 命令 对 比 ， 


会 发 现 多 了 一 行 --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop, ii 
通过 这 个 选项 将 作业 元 数据 存储 到 HSQLDB 数 据 库 文件 中 ，metastore 的 
默认 端口 是 16000， 可 以 用 sqoop.metastore.server.port 属 性 设置 为 其 他 端 
口号 。 创 建 作 业 前 ， 需 要 使 用 --delete 参 数 先 删除 已 经 存在 的 同名 作业 。 


5. 定义 工作 流 


建立 内 容 如 下 的 workflow.xml 文 件 : 


<?xml version="1.0" encoding="utf-8"?> 
«workflow-app xmlns-"uri:oozie:workflow:0.1" name="regular_etl"> 
«start to="fork-node"/> 
«fork name="fork-node"> 
«path start-"sqoop-customer" /> 
«path start="sqoop-product" /> 
«path start-z"sqoop-sales order" /> 
</fork> 
«action name="Sqoop-customer'"> 
«sqoop xmlns-"uri:oozie:sqoop-action:0.2"» 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name node» 
<arg>import</arg> 
<arg>--connect</arg> 
<arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg 
<arg>--username</arg> 
<arg>root</arg> 
<arg>--password</arg> 
<arg>mypassword</arg> 
<arg>--table</arg> 
<arg>customer</arg> 
<arg>--hive-import</arg> 
<arg>--hive-table</arg> 
<arg>rds.customer</arg> 
<arg>--hive-overwrite</arg> 
<file>/tmp/hive-site. xml#hive-site.xml</file> 
<archive>/tmp/mysgql-connector -java-5.1.38-bin. jar#my 
bin. jar</archive> 
</sqoop> 
«ok to="joining"/> 
«error to="fail"/> 
</action> 
«action name="sqoop-product"> 
«sqoop xmlns="uri:00zZ1e:sqoop-action:0.2"> 


<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name -node> 
<arg>import</arg> 
<arg>--connect</arg> 
<arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg 
<arg>--username</arg> 
<arg>root</arg> 
<arg>--password</arg> 
<arg>mypassword</arg> 
<arg>--table</arg> 
<arg>product</arg> 
<arg>--hive-import</arg> 
<arg>--hive-table</arg> 
<arg>rds.product</arg> 
<arg>--hive-overwrite</arg> 
<file>/tmp/hive-site.xml#hive-site.xml</file> 
<archive>/tmp/mysgql-connector -java-5.1.38-bin. jar#my 
bin. jar</archive> 
</sqoop> 
«ok to="joining"/> 
«error to="fail"/> 
</action> 
«action name-"sqoop-sales order"> 
«sqoop xmlns-"uri:oozie:sqoop-action:0.2"» 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name node» 
<command>job --exec myjob_incremental_import --meta- 
jdbc: hsqldb: hsql: //cdh2:16000/sqoop</command> 
<file>/tmp/hive-site. xml#hive-site.xml</file> 
<archive>/tmp/mysql-connector -java-5.1.38-bin. jar#my 
bin. jar</archive> 
</sqoop> 
«ok to="joining"/> 
«error to="fail"/> 
</action> 
«join name="joining" to="hive-node"/> 
<action name="hive-node"> 
<hive xmlns="uri:oozie:hive-action:0.2"> 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name -node> 
<job-xml>/tmp/hive-site.xml</job-xml> 
<script>/tmp/regular_etl.sql</script> 
</hive> 
<ok to="end"/> 
«error to="fail"/> 
</action> 
«kill name="fail"> 


<message>Sqoop failed, error 
message[${wf:errorMessage(wf : lastErrorNode() )}]</message> 
</kill> 
<end name="end"/> 
</workflow-app> 


这 个 工作 流 的 DAG 如 图 9-2 所 示 。 


sqoop-customer | | sqoop-product | sqoop-sales_order 
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图 9-2 EH DAG 


上 面 的 XML 文件 使 用 hPDL 的 语法 定义 了 一 个 名 为 regular_etl 的 工作 
流 。 该 工作 流 包 括 9 个 节点 ， 其 中 有 5 个 控制 节点 ，4 个 动作 节点 : 工作 
流 的 起 点 start、 终 点 end、 失 败 处 理 节点 fail (DAG 图 中 未 显示 ) ， 两 个 
执行 路 径 控制 节点 fork-node 和 joining， 三 个 并 行 处 理 的 Sqoop 动 作 节 点 
sqoop-customer、Ssqoop-product、Ssqoop-sales_order 用 作 数 据 抽 取 ， 一 个 
Hive 动 作 节 点 hive-node 用 作 数 据 转换 与 装载 。 














Oozie 的 工作 流 节点 分 为 控制 节点 和 动作 节点 两 类 。 控 制 节 点 控制 
着 工作 流 的 开始 、 结 束 和 作业 的 执行 路 径 。 动 作 节 点 触发 计算 或 处 理 任 
务 的 执行 。 节 点 的 名 字 必 须 符合 [a-zA-Z][\-_a-zA-Z0-0]* 这 种 正则 表达 式 
模式 ， 并 且 不 能 超过 20 个 字符 。 





C1) 控制 节点 





控制 节点 又 可 分 成 两 种 ， 一 种 定义 工作 流 的 开始 和 结束 ， 这 种 节点 
使 用 start、end 和 kil 三 个 标签 。 另 一 种 用 来 控制 工作 流 的 执行 路 径 ， 使 
用 decision、fork 和 join 标签 。 


start 节 点 是 一 个 工作 流 作 业 的 入 口 ， 是 工作 流 作业 的 第 一 个 节点 。 
当 工 作 流 开始 时 ， 它 会 自动 转 到 start 标 签 所 标识 的 节点 。 每 一 个 工作 流 
定义 必须 包含 一 个 start 节 点 。 

end 节 点 是 工作 流 作 业 的 结束 ， 它 表示 工作 流 作 业 成 功 完成 。 当 工 
作 流 到 达 这 个 节点 时 就 结束 了 。 如 果 在 到 达 end 节 点 时 ， 还 有 一 个 或 多 
个 动作 正在 执行 ， 这 些 动 作 将 被 kil， 这 种 场景 也 被 认为 是 执行 成 功 。 
每 个 工作 流 定义 必须 包含 一 个 end 节 点 。 

kill 节 点 允许 一 个 工作 流 作 业 将 自己 kill 掉 。 当 工作 流 作 业 到 达 kill 节 
点 时 ， 表 示 作 业 以 失败 结束 。 如 果 在 到 达 kill 节 点 时 ， 还 有 一 个 或 多 个 
动作 正在 执行 ， 这 些 动 作 将 被 kil。 一 个 工作 流 定义 中 可 以 没有 kil 节 
A. Ba Washes Pi A. 

decision 节 点 能 够 让 工作 流 选择 执行 路 径 ， 其 行为 类 似 于 一 个 
switch-case 语 句 ， 即 按 不 同情 况 走 不 同 分 文 。 我 们 刚 定 义 的 工作 流 中 没 
有 decision 节 点 ， 因 此 到 11.1 节 用 到 decision 节 点 时 再 详细 讨论 。 

fork 节 点 将 一 个 执行 路 径 分 裂 成 多 个 并 发 的 执行 路 径 。 直 到 所 有 这 
些 并 发 执行 的 路 径 都 到 达 join 节 点 后 ， 工 作 流 才 会 继续 往 后 执行 。fork 
与 join 节点 必须 成 对 出 现 。 实 际 上 join 节点 将 多 条 并 发 执行 路 径 视 作 同一 




















个 fork 节 点 的 子 节点 。 


(2) 动作 节点 








动作 节点 是 实际 执行 操作 的 部 分 。Oozie 支 持 很 多 种 动作 节点 ， 包 
括 Hive 脚 本 、Hive Server2 脚 本 、Pig 脚 本 、Spark 程 序 、Java 程 序 、 
Sqoop1 命 令 、MapReduce 作 业 、shell 脚 本 、HDEFS 命 令 等 。ETL 工 作 流 中 
使 用 了 Sqoop 和 Hive 两 种 。ok 和 error 是 动作 节点 预定 义 的 两 个 XML 元 
素 ， 它 们 通 弟 被 用 来 指定 动作 节点 执行 成 功 或 失败 时 的 下 一 步 跳 转 节 
点 。 这 些 元 素 在 Oozie 中 被 称 为 转 癌 元素 。arg 元 素 包 含 动 作 节 点 的 实际 
参数 。sqoop-customer 和 sqoop-product 动 作 节 点 中 使 用 arg 元 素 指 定 Sqoop 
命令 行 参数 。command 元 素 表 示 要 执行 一 个 shell 命 令 。 在 sqoop- 
sales_order 动 作 节 点 中 使 用 command 元 素 指 定 执行 Sqoop 作 业 的 命令 。 
file 和 archive 元 素 用 于 为 执行 MapReduce 作 业 提 供 有 效 的 文件 和 包 。 为 了 
避免 不 必要 的 混淆 ， 最 好 使 用 HDFS 的 绝对 路 径 。 我 们 的 三 个 Sqoop 动 作 
节点 使 用 这 两 个 属性 为 Sqoop 指 定 Hive 的 配置 文件 和 和 MySQL JDBC 了 驱动 
包 的 位 置 。 必 须 包含 这 两 个 属性 Sqoop 动 作 市 点 才能 正常 执行 。script 元 
素 包 含 要 执行 的 脚本 文件 ， 这 个 元 又 的 值 可 以 被 参数 化 。 我 们 在 
hivenode 动 作 节 点 中 使 用 script 元 素 指定 需要 执行 的 定期 装载 SQL 脚本 文 
件 。 














(3) 工作 流 参 数 化 


工作 流 定 义 中 可 以 使 用 形式 参数 。 当 工作 流 被 Oozie 执 行 时 ， 所 有 
形 参 都 必须 提供 具体 的 值 。 参 数 定义 使 用 JSP 2.0 的 语法 ， 参 数 不 仅 可 以 
是 单个 变量 ， 还 文 持 函数 和 复合 表达 式 。 参 数 可 以 用 于 指定 动作 节点 和 
decision 节 点 的 配置 值 、XML 属 性 值 和 XML 元 素 值 ， 但 是 不 能 在 节点 名 
称 、XML 属 性 名 称 、XML 元素 名 称 和 节点 的 转向 元 素 中 使 用 参数 。 我 
们 的 工作 流 中 使 用 了 ${jobTracker} 和 ${nameNode} 两 个 参数 ， 分 别 指定 


YARN 资 源 管理 器 的 主机 / 端口 和 HDFS NameNode 的 主机 / 端口 。 
(4) 表达 式 语言 函数 


Oozie 的 工作 流 作业 本 号 还 提供 了 丰富 的 内 建 浮 数 ，Oozie 将 它们 统 
称 为 表达 式 语言 函数 (Expression Language Functions, {aj #KELEA2L) . 
通过 这 些 函 数 可 以 对 动作 节点 和 decision 节 点 的 谓词 进行 更 复杂 的 参数 
化 。 我 们 的 工作 流 中 使 用 了 wf:errorMessage 和 wf:lastErrorNode 两 个 内 建 
印 数 。wf:errorMessage 函 数 返 回 特定 节点 的 错误 消息 ， 如 果 没 有 错误 则 
返回 空 字符 串 。 错 误 消 息 癌 被 用 于 排 错 和 通知 的 目的 。wf'lastErrorNode 
函数 返回 最 后 出 错 的 节点 名 称 ， 如 果 没 有 错误 则 返回 空 字符 串 。 





6. 部 署 工 作 流 


这 里 所 说 的 部 署 就 是 把 相关 文件 上 传 到 HDFS 的 对 应 目录 中 。 我 们 
需要 上 传 工 作 流 定义 文件 ， 还 要 上 传 他 e、archive、script 元 素 中 指定 的 
文件 。 可 以 使 用 hdfs dfs -put 命 令 将 本 地 文件 上 传 到 HDFS，-f 参 数 的 作 
用 是 ， 如 果 目 标 位 置 已 经 存在 同名 的 文件 ， 则 用 上 传 的 文件 窗 盖 已 存在 
的 文件 。 

hdfs dfs -put -f workflow.xml /user/root/ 
hdfs dfs -put /etc/hive/conf.cloudera.hive/hive-site.xml /tmp/ 


hdfs dfs -put /root/mysql-connector-java-5.1.38-bin.jar /tmp/ 
hdfs dfs -put /root/regular etl.sql /tmp/ 


7. 建立 作业 属性 文件 








到 现在 为 止 我 们 已 经 定义 了 工作 流 ， 也 将 运行 工作 流 所 希 的 所 有 文 
件 上 传 到 了 HDFS 的 指定 位 置 。 但 是 ， 仍 然 无 法 运行 工作 流 ， 因 为 还 缺 
少 关 键 的 一 步 : 必须 定义 作业 的 某 些 属性 ， 并 将 这 些 属性 值 提 交 给 
Oozie。 在 本 地 目录 中 ， 我 们 需要 创建 一 个 作业 属性 文件 ， 这 里 命名 为 





job.properties， 其 中 的 内 容 如 下 : 


nameNode=hdfs://cdh2:8020 

jobTracker=cdh2: 8032 

queueName=default 

oozie.use.system. libpath=true 

oozie.wf .application.path=${nameNode}/user/${user .name} 





注意 ， 此 文件 不 需要 上 传 到 HDFS。 这 里 稍微 解释 一 下 每 一 行 的 含 
义 。nameNode 和 jobTracker 是 工作 流 定义 里 面 的 两 个 形 参 ， 分 别 指示 
NameNode 和 YARN 资 源 管理 器 的 主机 名 / 端口 号 。 工 作 流 定义 里 使 用 
的 形 参 ， 必 须 在 作业 属性 文件 中 赋值 。queueName 是 MapReduce 作 籽 的 
队列 名 称 ， 用 于 给 一 个 特定 队列 命名 。 默 认 时 ， 所 有 的 MR 作 业 都 进 
入 “default” 队 列 。queueName 主 要 用 于 给 不 同 目的 作业 队列 赋予 不 同 的 
属性 集 来 保证 优先 级 。 为 了 让 工作 流 能 够 使 用 Oozie 的 共享 库 ， 要 在 作 
业 属 性 文件 中 设置 oozie.use.system.libpath=true。oozie.wf.application.path 
属性 设置 应 用 工作 流 定 义 文 件 的 路 径 ， 在 它 的 赋值 中 ，${fnameNode} 是 
引用 第 一 行 的 变量 ，${fuser.name} 系 统 变量 引用 的 是 Java 环 境 的 
user.name 属 性 ， 通 过 该 属性 可 以 获得 当前 登录 的 操作 系统 用 户 名 。 











8. 运行 工作 流 





经 过 一 连 串 的 配置 ， 现 在 已 经 万 事 俱 备 ， 可 以 运行 定期 装载 工作 流 
了 。 下 面 的 命令 用 于 运行 工作 流 作 业 。oozie 是 Oozie 的 客户 端 命令 ，job 
表示 指定 作业 属性 ，-o0zie 参 数 指示 Oozie 服 务 器 实例 的 URL，-config 参 
数 指示 作业 属性 配置 文件 ，-run 告 诉 Oozie 运 行 作 业 。 





oozie job -oozie http://cdh2:11000/00zie -config /root/job.prope 


此 时 从 Oozie Web 控 制 台 可 以 看 到 正在 运行 的 作业 ， 如 图 9-3 所 示 。 





图 9-3 ”运行 的 作业 


= 





单 击 “Active Jobs” 标 人 答 ， 会 看 到 表格 中 只 有 一 行 ， 就 是 我 们 刚 运 行 
的 工作 流 作 业 。Job ”Id 是 系统 生成 的 作业 号 ， 它 唯一 标识 一 个 作业 。 
Name 是 我 们 在 workflow.xml 文 件 中 定义 的 工作 流 名 称 ，Status 为 
RUNNING， 表 示 正 在 运行 。 页 面 中 还 会 显示 执行 作业 的 用 户 名 、 作 业 
创建 时 间 、 开 始 时 间 、 最 后 修改 时 间 、 结 束 时 间 等 作业 属性 。 


单 击 作业 所 在 行 ， 可 以 打开 作业 的 详细 信息 窗口 ， 如 图 9-4 所 示 。 








Job (Name: regukar. eti/JobLd; 0900027-100707165816318-ou0zte-oozi- WW) 
Job Into fnibut igure q b DA 


Job Id: 0000027-1 607071658 16318-conmecon-W 
Nene; regula ed 
too Path: | hofe://c dh 2:8020/user/ ro ek 
Rn 


User roct 


Cate Time Mon L] 


Stat Time Mon 


Lat Modified: Mon, 11 34 2016 03:14:40 GM 


End Time: 





图 9-4 作业 详细 信息 





这 个 页 面 有 上 下 两 部 分 组 成 。 上 面 是 以 纵 辐 方式 显示 作业 属性 ， 内 
容 和 9-3 所 示 的 一 行 相同 。 下 面 是 动作 的 信息 。 在 这 个 表格 中 会 列 出 我 
们 定义 的 工作 流 节点 。 从 图 中 可 以 看 到 节点 的 名 称 和 类 型 ， 分 别 对 应 
workflow.xml 文 件 中 节点 定义 的 属性 和 元 素 ，Transition 表 示 转 回 的 节 
点 ， 对 应 工作 流 定 义 文件 中 “to”* 属 性 的 值 。 从 Status 列 可 以 看 到 节点 执行 








的 状态 ， 图 中 表示 正在 运行 sqoop-sales_order 动 作 节点 ， 前 面 的 start、 
fork-node、sqoop-customer、sqoop-product 都 已 执行 成 功 ， 后 面 的 
joining、hive-node、end 节 点 还 没有 执行 到 ， 所 以 图 中 没有 显示 。 这 个 
表格 中 只 会 显示 已 经 执行 或 正在 执行 的 节点 。 表 格 中 还 有 StartTime 和 
EndTime 两 列 ， 分 别 表 示 节 点 的 开始 和 结束 时 间 ，fork 节 点 中 的 三 个 
Sqoop 动 作 是 并 行 执行 的 ， 因 此 起 止 时 间 上 有 所 交叉 。 


单 击 动 作 所 在 行 ， 可 以 打开 动作 的 详细 信息 窗口 ， 如 图 9-5 所 示 。 





Job (Name: regular etl/JobId: 0000027-160707165816318-oozie-oozi-W) 


Job-1nfe. | tak nafini REICH 1 1 
Action (Name: hive-node/JobId: 0000027-160707165816318-0o07zle-oozi-W) 


; Action Info 





Name} hive-noce 
Type: hive 
Transition: 
Start Time: | Mon, 11 Jul 2016 03:15:42 GMT 
End Time: 
Status: RUNNING 
Error Code: 
Error Message: 
External ID: job. 1467881802255 0215 
External Status; RUNNING 
Console URL:| http://cdh2:8088/proxy/application_1467881802255_0215/ 2 





Tracker URI: | cdh2:8032 





Acti¢ 

x Transition StartTime EndTime 
TART. K fork-node Mon, 11 2016 03:1 
FORK: K * Mon i| 20 
sqoop OK jeining Mon, 11 Jul 20 
qoop K Joining Mon, 11 
sqoop K joining Mon, 11 Jul 20 

zie- joining joining JOIN OK hive-node Mon, 11 Jul 20 3:15 

7 0000027-160707165816318-00zie-oo0zi- live-n.. hive-node hive RUNNING Mon, 11 Jul 2016 03:15:42 








图 9-5 ”动作 详细 信息 





这 个 窗口 中 显示 一 个 节点 的 12 个 相关 属性 。 从 上 图 中 可 以 看 到 正在 
运行 的 hive-node 节 点 的 属性 ， 注 意 Console URL 属 性 ， 单 击 它 右 侧 的 图 
标 ， 可 以 打开 真正 执行 动作 的 MapReduce 作 业 的 跟踪 页 面 ， 如 图 9-6 所 
示 。Oozie 中 定义 的 动作 ， 实 际 上 是 作为 MapReduce 之 上 的 应 用 来 执行 
的 。 从 这 个 页 面 可 以 看 到 相关 MapReduce 作 业 的 属性 ， 包 括 作 业 ID、 总 
的 Map/Reduce 数 、 己 完成 的 Map/Reduce 数 、Map 和 Reduce 的 处 理 进度 等 


aw 
fei i. 


MapReduce Application 
application 1467881802255 0215 





图 9-6 ”执行 动作 的 MapReduce 作 业 





当 Oozie 作 业 执 行 完 ， 可 以 在 图 9-3 所 示 页 面 的 “All ”Jobs” 标 签 页 看 
到 ，Status 列 已 经 从 RUNNING 变 为 SUCCEEDED， 如 图 9-7 所 示 。 





图 9-7 完成 的 工作 流 


可 以 看 到 ， 整 个 工作 流 执行 了 将 近 31 分 钟 。 细 心 的 读者 可 能 发 现 
了 ， 显 示 的 时 间 点 是 3 点 。 这 个 时 间 比 较 奇 怪 ， 它 和 我 们 手工 执行 工作 
流 的 时 间 相差 了 8 小 时 。 造 成 这 个 问题 的 原因 稍 后 再 做 解释 。 


为 了 验证 数据 是 否 正 确 ， 我 们 查看 cdc_time 表 的 数据 。 因 为 整个 定 
期 装载 过 程 的 最 后 一 条 HiveQL 语 句 是 更 新 cdc_time 表 ， 如 果 它 被 正确 更 
新 ， 说 明 前 面 的 语句 都 成 功 执行 了 《〈Hive 的 任何 一 步 出 错 都 会 中 断 退 
出 ， 不 会 继续 执行 后 面 的 语句 ) 。 查 询 及 其 结果 如 下 所 示 ， 可 以 看 到 日 
期 已 经 改 为 当前 日 期 ， 说 明定 期 装载 工作 流 执行 正确 。 


0: jdbc:hive2://cdh2:10000/dw» select * from rds.cdc time; 


OK 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 下 二 二 一 一 一 一 二 一 二 二 二 一 一 一 一 一 一 FF 
| ecdc time. last load | cde time.current load | 
ipm ipu ——— +--+ 
| 2016-07-10 | 2016-07-11 | 
4£--------------------- 4------------------------ +--+ 


row selected (0.289 seconds) 





9.4. 建立 协调 器 作业 定期 自动 执行 工作 沈 


工作 流 作业 通常 都 是 以 一 定 的 时 间 间 隅 定期 执行 的 ， 例 如 我 们 的 定 
期 装载 ETIL 作 业 需 要 在 每 天 2 点 执行 一 次 。Oozie 的 协调 器 作业 能 够 在 满 
足 谓 词 条 件 时 触发 工作 流 作 业 的 执行 。 现 在 的 谓词 条 件 可 以 定义 为 数据 
可 用 、 时 间或 外 部 事件 ， 将 来 还 可 能 扩展 为 支持 其 他 类 型 的 事件 。 协 调 
器 作业 还 有 一 种 使 用 场景 ， 就 是 需要 关联 多 个 周期 性 运行 工作 流 作业 。 
它们 运行 的 时 间 间 隔 不 同 ， 前 面 所 有 工作 流 的 输出 一 起 成 为 下 一 个 工作 
流 的 输入 。 例 如 ， 有 5 个 工作 流 ， 前 4 个 顺序 执行 ， 每 隔 15 分 钟 运行 一 
个 ， 第 5 个 工作 流 每 隔 60 分 钟 运行 一 次 ， 前 面 4 个 工作 流 的 输出 共同 构成 
第 5 个 工作 流 的 输入 。 这 种 工作 流 链 有 时 被 称 为 数据 应 用 管道 。Oozie 协 
调 器 系统 允许 用 户 定义 周期 性 执行 的 工作 流 作业 ， 还 可 以 定义 工作 流 之 
间 的 依赖 关系 。 和 工作 流 作 业 类 似 ， 定 义 协 调 器 作业 也 要 创建 配置 文件 
和 属性 文件 。 


1. 建立 协调 器 作业 配置 文件 











建立 内 容 如 下 的 coordinator.xml 文 件 : 


«coordinator-app name-"regular etl-coord" frequency="${coord:days(1)}" start="${start}" 
end="${end}" timezone="${timezone}" xmlns="“uri:oozie:coordinator:0.1"> 
<action> 
<workflow> 
«app-path»$[workflowAppUri]«/app-path» 
«configuration» 
«property» 
«name» jobTracker</ name> 
<value>${jobTracker}</value> 
</property> 
<property> 
<name>nameNode</name> 
<value>${nameNode }</value> 
</property> 
<property> 
<name>queueName</name> 
<value>${queveName }</value> 
</property> 
«/configuration» 
«/workflow» 
«/action» 


«/coordinator-app» 


在 上 面 的 XML 文件 中 ， 我 们 定义 了 一 个 名 为 regular_etl-coord 的 协调 
器 作业 。coordinator-app 元 素 的 frequency 属 性 指定 工作 流 运 行 的 频率 。 
我 们 用 Oozie 提 供 的 ${coord:days(int”n)} EL 函数 给 它 赋 值 ， 该 函数 返 
回合: 天 的 分 钟 数 ， 示 例 中 的 nan 为 1， 也 就 是 每 隔 1440 分 钟 运行 一 次 工作 
流 。start 属 性 指定 起 始 时 间 ，end 属 性 指定 终止 时 间 ，timezone 属 性 指定 
时 区 。 这 三 个 属性 都 赋予 形 参 ， 在 属性 文件 中 定义 参数 值 。xmlns 属 性 
值 是 常量 字符 串 “uri:o0zie:coordinator:0.1”。${workflowAppUri} 形 参 指 
定 应 用 的 路 径 ， 束 是 工作 流 定义 文件 所 在 的 路 径 。${jobTracker}、 
${nameNode} 和 ${queueName} 形 参与 前 面 workflow.xml 工 作 流 文件 中 的 
含义 相同 。 


2. 建立 协调 右 作 业 属 性 文件 





建立 内 容 如 下 的 job-coord.properties 文 件 : 


nameNode=hdfs://cdh2:8020 
jobTrackerzcdh2:8032 
queueName-default 
oozie.use.system.libpath-true 


oozie.coord.application.path-$([nameNode)/user/$[user.name) 
timezone-UTC 

start-2016-07-11T06:00Z 

end-2020-12-31T07:15Z 

workf LowAppUri=${nameNode}/user/${user .name} 


这 个 文件 定义 协调 器 作业 的 属性 ， 并 给 协调 堪 作 业 定 义 文件 中 的 形 
参 赋 值 。 该 文件 的 内 容 与 工作 流 作 业 属 性 文件 的 内 容 类 似 。 
oozie.coord.application.path 参 数 指 定 协 调 器 作业 定义 文件 所 在 的 HDFS 路 
径 。 需 要 注意 的 是 ，start、end 变 量 的 赋值 与 时 区 有 关 。Oozie 默 认 的 时 
区 是 UTC， 而 且 即 便 在 属性 文件 中 设置 了 timezone=GMT+0800 也 不 起 作 
用 。 我 们 给 出 的 起 始 时 间 点 是 2016-07-11T06:00Z， 实 际 要 加 上 8 个 小 
时 ， 才 是 我 们 所 在 时 区 真正 的 运行 时 间 ， 即 14 点 〈 为 了 便于 及 时 验证 运 
行 效 果 ， 设 置 这 个 时 间 点 ) 。 因 此 在 定义 时 间 点 时 一 定 要 注意 时 间 的 计 
算 问 题 ， 这 也 就 是 在 前 面 的 工作 流 演 示 中 ， 控 制 台 页 面 里 看 到 的 时 间 是 
次 晨 3 点 的 原因 ， 真 实时 间 是 上 午 11 点 。 


3. REM RENE 














执行 下 面 的 命令 将 coordinator.xml 文 件 上 传 到 
o0zie.coord.application.path 参 数 指定 的 HDFS 目 录 中 。 





hdfs dfs -put -f coordinator.xml /user/root/ 
4. 运行 协调 器 作业 


执行 下 面 的 命令 运行 协调 右 作 业 : 
oozie job -oozie http://cdh2:11000/00zie -config /root/job-coord 
此 时 从 Oozie Web 探 制 台 可 以 看 到 准备 运行 的 协调 嚣 作业， 作业 的 


状态 为 PREP， 如 图 9-8 所 示 。PREP 状 态 表 示 已 经 将 作业 提交 给 Oozie， 
并 且 准 备 运 行 


OOQ0U0 pocunmtation 
Onze Web Con 
oriow jobs | Coordinator Jobs | Bonde Jobs 


D. All Jobs Active Jobs Done Jobs Custom Filter * Server version [4.1.0-cdhs. 7.0] 


Job id Name Frequency Unit Sates Net Matenakzabon 
1 0000028-160707165616218-00De-002-C reguiar et-coord 1 DAY Mon, 11 Jul 2016 06:00:00 





图 9-8 提交 协调 器 作业 








当时 间 到 达 14:00 时 ， 满 足 了 时 间 谓 词 条 件 ， 协 调 器 作业 开始 运 
， 作 业 状 态 由 PREP 变 为 RUNNING， 如 图 9-9 所 示 。 


DOQGU Docuentation 
Oovie Web Console 
Workflow X Coordinator Jobs Ban 
D. All Jobs Active Jobs Done Jobs Custom Fiter” ‘Server version [4.1.0-cdh5, 7.0] 
Job id Name G Frequency Unit Started Next Matenakzabon 
0000028-160707165016316-o02e-002-C regular et-coord d 1 Day Men. 11 Jut 2016 06:00:00 Tue, 12 Jul 2016 06:00:00 





图 9-9 运行 协调 器 作业 





单 击 作业 所 在 行 ， 可 以 打开 协调 器 作业 的 详细 信息 窗口 ， 如 图 9-10 
所 示 。 


Job (Name: regular etl-coord /coordJobId: 0000028-1607071658162318-o0zie-oozi-C) 
Coord Job Info | Coord Job Definition Coord Job Configuration || Coord Job Log || Coord Action Reruns 


^ 
ei 


Job Id: | 0000028-160707195816318-002e-00z-C 


Name: etl-coord 
Status}, RUNNING 


User: root 
Group: 
Frequency: 1 
Unit: DAY 
Parent Bundle: 
Start Time: Mon, 11 Jul 2016 06:00:00 GMT 
Next Matd: | Tue, 12 Jul 2016 06:00:00 GMT 
End Time: Thu, 31 Dec 2020 07:15:00 GMT 
Pause Tima: 


Concurrency: 1 


Actions 


Action Id Status Extld ErrorCode Created Time Nominal Time 
1 0000028-160707165816318-o0zIe-cozI-C... RUNNING — 0000029-160707165816318-002ie-- Mon, 11 Jul 2016 05:58:41 .. Mon. 11 Jul 2016 06:00:00 





图 9-10 ”协调 器 作业 详细 信息 





单 击 协调 器 作业 所 在 行 ， 可 以 打开 调用 的 工作 流 作 业 的 详细 信息 窗 
口 ， 如 图 9-11 所 示 。 这 个 页 面 和 图 9-4 所 示 的 是 同一 个 页 面 ， 但 这 时 


在 “Parent Coord” 字 段 显示 了 协调 器 作业 的 Job Id. 


Job (Name: regular_etl/JobId: 0000029-160707165816318-00zie-o02i-W) 
Job Info | Job Definition | Job Configuration || Job Log || Job DAG 


25. 
RT 


Job Id: | 0000029-160707165816318-002/€-C0ZI-W 
App Path: | hdfs://cch2:8020/user/root 
Run: 0 
sn a] 
User: root 


Group: 





Create Time: Mon, 11 Jul 2016 06:00:00 GMT 

Start Time: | Mon, 11 Jul 2016 06:00:00 GMT 

Last Modified: Mon, 11 Jul 2016 06:02:02 GMT 
End Time: 


Actions 

Action Id ame ype Status 
0000029-1607071658106318-0021e-002i-W(Q start: E E H OK 
0000029-160707165816318-o0zie-o0z- OK * Mon, 11 Jul 2016 06:00:00 Mon. 11 Jul 2016 06:00:00 
0000029-160707165816318-00zi OK oinin Mon, 11 Jul 2016 06:00:00 Mon, 11 Jul 2016 06:01:00 ... 


0000029-160707165816318-0 q OK oinin Mon, 11 Jul2016 06:00:05 Mon, 11 Jul 2016 06:02:01 
0000029-160707165816318-o0zie-oozi-W@sqoop..} sqoop-sele.. sqoo; RUNNING Mon, 11 Jul 2016 06:00:10 ... 


Transi tion StartTime EndTime 
Tork-node Mon, 11 Jul 2016 06:00:00 Mon, 11 Jul 2016 06:00:00 ... 





wn 





o 如 














图 9-11 工作 流 作 业 的 详细 信息 





9.5 ”Oozie 优 化 





Oozie 本 吴 并 不 真正 运行 工作 流 中 的 动作 ， 它 在 执行 工作 流 中 的 动 
作 节 点 时 ， 会 先 启动 一 个 发 射 器 (Launcher) 。 发 射 器 类 似 于 一 个 
YARN 作 业 ， 由 一 个 AppMaster 和 一 个 Mapper 组 成 ， 只 负责 运行 一 些 基 
本 的 命令 ， 如 为 执行 Hive CLIA “hive”, Hive Beeline 瘦 客户 并 
的 “hive2”、Pig CLI、Sqoop、Spark Driver, Bash shell 和 等。 然后， 由 这 些 
命令 产生 一 系列 真正 执行 工作 流动 作 的 YARN 作 业 。 


值得 注意 的 是 ，YARN 并 不 知道 发 射 器 和 它 所 产生 的 作业 之 间 的 依 
赖 关 系 ， 这 在 “hive2” 动 作 中 表现 得 尤为 明显 。“hive2” 动 作 的 发 射 占 连 
接 到 HiveServer2， 然 后 HiveServer2 产 生动 作 相 关 的 作业 。 


知道 了 Oozie 的 运行 机 制 ， 就 可 以 有 针对 性 地 优化 Oozie 工 作 流 的 执 





行 了 。 下 面 以 Hive 动 作为 例 进行 说 明 。 
1. 减少 给 发 射 器 作业 分 配 的 资源 





发 射 句 作业 只 需要 一 个 很 小 的 调度 〈“ 记 住 只 有 一 个 Mapper) ， 因 此 
它 的 AppMaster 所 需 资 源 参 数值 应 该 设置 得 很 低 ， 以 避免 因 消 耗 过 多 内 
存 阻 碍 了 后 面 工作 流 队列 的 执行 。 可 以 通过 配置 以 下 动作 属性 值 修改 发 
TE d HH ER EE UR 


e oozie.launcher.yarn.app.mapreduce.am.resource.mb: 发 射 器 使 用 的 
总 内 存 大 小 。 

e oozie.launcher.yarn.app.mapreduce.am.command-opts: 需要 在 
Oozie 命 令 行 显 式 地 使 用 “-Xmx” 参 数 限 制 Java 推 栈 的 大 小 ， 典 型 
地 配置 为 80% 的 物理 内 存 。 如 果 设 置 的 太 低 ， 可 能 出 现 
OutOfMemory 错 误 ; 如 果 太 高 ， 则 YARN 可 能 会 因为 限额 使 用 不 
当 杀 死 Java 容 器 。 


2. 减少 给 “hive2” 发 射 器 作业 分 配 的 资源 
类 似 地 ， 配 置 以 下 动作 属性 值 


e oozie.launcher.mapreduce.map.memory.mb 


e oozie.launcher.mapreduce.map.java.opts 


3. 利用 YARN 队 列 名 


如 果 能 够 获得 更 高 级 别 的 YARN 队 列 名 称 ， 可 以 为 发 射 器 配置 
oozie.launcher.mapreduce. job.queuename 属 性 。 对 于 实际 的 Hive 查 询 ， 可 
以 如 下 配置 : 


e 在 Oozie 动 作 节 点 中 设置 mapreduce.job.queuename 属 性 。 这 种 方法 
仅 对 “hive” 动 作 有 效 。 

。 在 HiveQL 脚 本 开头 插入 “set mapreduce.job.queuename = *** ;” 命 
令 。 这 种 方法 对 “hive”* 和 “hive2” 动 作 都 起 作用 。 


4. iS Hive® i fJ AppMaster 5: ii 


如 果 默 认 的 AppMaster 资 源 对 于 实际 的 Hive 人 查询 来 说 太 大 了 ， 可 以 
修改 它们 的 大 小 : 


e 在 Oozie 动 作 节 点 中 设置 yarn.app.mapreduce.am.resource.mb 和 
yarn.app.mapreduce.am. command-opts 属 性 ， 或 者 
tez.am.resource.memory.mb 和 tez.am.launch.cmd-opts 属 性 〈 当 Hive 
使 用 了 Tez 执 行 引 警 时 ) 。 这 种 方法 仅 对 “hive” 动 作 有 效 。 

。 在 HiveQL 脚 本 开头 插入 设置 属性 的 set 命 令 。 这 种 方法 
对 “hive” 和 “hive2” 动 作 都 起 作用 。 


注意 ， 对 于 上 面 的 1[、2、4 条 ， 不 能 配置 低 于 


yarn.scheduler.minimum-allocation-mb 的 值 。 
5. 合并 HiveQL 脚 本 


可 以 将 某 些 步骤 合并 到 同一 个 HiveQL 脚 本 中 ， 这 会 降低 Oozie 轮 询 
YARN 的 开销 。Oozie 会 同 YARN 询 问 一 个 查询 是 否 结束 ， 如 果 是 就 启动 
男 一 个 发 射 器 ， 然 后 该 发 射 器 启动 男 一 个 Hive 会 话 。 当 然 ， 对 于 出 现 查 
询 出 错 的 情况 ， 这 种 合并 做 法 的 控制 粒度 较 粗 ， 可 能 在 重新 启动 动作 前 
需要 做 一 些 手工 清理 的 工作 。 


6 并行 执行 多 个 步 又 











在 拥有 足够 YARN 资 源 的 前 提 下 ， 尽 量 将 可 以 并 行 执行 的 步骤 放置 
到 Oozie Fork/Join 的 不 同 分 文中 。 


7. 使 用 Tez 计 算 框架 


在 很 多 场景 下 ，Tez 计 算 框 架 比 MapReduce 效 率 更 高 。 例 如 ，Tez 会 
为 Map 和 Reduce 步 又 重 用 同一 个 YARN 容 器 ， 这 对 于 连续 的 查询 将 降低 
YARN 的 开销 ， 同 时 减少 中 间 处 理 的 磁盘 IO。 





9.6 小结 


(1) cron 服 务 是 Linux 下 用 来 周期 性 地 执行 东 种 任务 或 处 理 茶 些 事 
件 的 系统 服务 ， 默 认 安 装 并 启动 。 

(2) 通过 crontab 命 令 可 以 创建 、 编 辑 、 显 示 或 删除 crontab 文 件 。 

(3) crontab 文 件 有 固定 的 格式 ， 其 内 容 定 义 了 要 执行 的 操作 ， 可 
以 是 系统 命令 ， 也 可 以 是 用 户 目 己 编写 的 脚本 文件 。 

(4) crontab 执 行 要 注意 环境 变量 的 设置 。 

(5) Oozie 是 一 个 管理 Hadoop 作 业 、 可 伸缩 、 可 扩展 、 可 人 靠 的 工作 
流 调度 系统 ， 它 内 部 定义 了 三 种 作业 : 工作 流 作 业 、 协 调 喜 作业 和 
Bundle 作 业 。 

(6) Oozie 的 工作 流 定义 中 包含 控制 节点 和 动作 节点 。 控 制 节 点 控 
制 着 工作 流 的 开始 、 结 束 和 作业 的 执行 路 径 ， 动 作 节 点 触发 计算 或 处 理 
任务 的 执行 。 

(7) Oozie 的 协调 右 作 业 能 够 在 满足 谓词 条 件 时 触发 工作 流 作 业 的 
执行 。 现 在 的 谓词 条 件 可 以 定义 为 数据 可 用 、 时 间或 外 部 事件 。 

(8) 配置 协调 右 作 业 的 时 间 触 发 条 件 时 ， 一 定 要 注意 进行 时 区 的 























BE. 
(9) 通过 适当 配置 Oozie 动 作 的 属性 值 ， 可 以 提高 工作 流 的 执行 交 


第 10 章 
«EE AUN. 


前 面 章节 中 ， 我 们 用 Hadoop 工 具 实 现 了 多 维 数据 仓库 的 基本 功能 ， 
如 使 用 Sqoop 和 Hive 实 现 ETL 过 程 ， 使 用 Oozie 定 期 执行 ETL 任 务 等 。 本 
章 将 继续 讨论 常见 的 维度 表 技 术 。 

我 们 以 最 简单 的 “增加 列 ? 开 始 ， 继 而 讨论 维度 子 集 、 角 色 扮 演 维 
度 、 层 次 维度 、 退 化 维度 、 杂 项 维度 、 维 度 合并 、 分 段 维度 等 基本 的 维 
度 表 技术 。 这 些 技术 都 是 在 实际 应 用 中 经 常 使 用 的 。 在 说 明 这 些 技术 的 
相关 概念 和 使 用 场景 后 ， 我 们 以 销售 订单 数据 仓库 为 例 ， 给 出 实现 代码 
和 测试 过 程 。 实 现 工 具 仍 然 使 用 Hive 和 Sqoop， 在 必要 时 会 对 前 面 已 经 
完成 的 ETL 脚 本 做 出 适当 的 修改 。 


10.1 增加 列 





业务 的 扩展 或 变化 是 不 可 避免 的 ， 尤 其 像 互 联网 行业 ， 需 求 变更 已 
经 成 为 常态 ， 唯 一 不 变 的 就 是 变化 本 身 ， 其 中 最 常 碰 到 的 扩展 是 给 一 个 
已 经 存在 的 表 增加 列 。 

以 销售 订单 为 例 ， 假 设 因为 业务 需要 ， 在 操作 型 源 系统 的 客户 表 中 
增加 了 送 货 地 址 的 4 个 字段 ， 并 在 销售 订单 表 中 增加 了 销售 数量 字段 。 
由 于 数据 源 表 增加 了 字段 ， 数 据 仓库 中 的 表 也 要 随 之 修改 。 本 节 说 明 如 
何在 客户 维度 表 和 销售 订单 事实 表 上 添加 列 ， 并 在 新 列 上 应 用 SCD2， 
以 及 对 定时 装载 脚本 所 做 的 修改 。 图 10-1 显 示 了 增加 列 后 的 数据 仓库 模 
x. 














1. 修改 数据 库 柑 式 





product_dim 





«pi» db 


product sk 
product code 
product name 
product category 
version 
effective date 
expiry date 





O 











order_dim 
order sk <pi> XM» 
order_number 
version 


effective_date 
expiry_date 














sales_order_fact 








order_sk <£13> 
customer sk <fi2> 
product sk <fil> 


_| order_date_sk 《fid> 

















customer_dim 





customer sk £pi» <M> 


customer number 

customer name 

customer street address 
customer zip code 
customer city 

customer state 
shipping address 
shipping zip code 


shipping city 
shipping state 
version 
effective date 
expiry date 




















date dim 
date sk <pi> <i> 
date 
nonth 
month name 
quarter 
year 





图 10-1 增加 列 后 的 数据 仓库 模式 





使 用 下 面 的 SQL 语句 修改 MySQL 中 的 源 数 据 库 模 式 。 


USe 


source; 


alter table 


customer 
add 


shipping address varchar 


(50) after 


customer state 





, add 


shipping zip code int after 


shipping. address 
, add 


shipping city varchar 


(30) after 


shipping. zip code 
, add 


shipping state varchar 


(2) after 


shipping. city ; 
alter table 


sales order add 


order quantity int after 


order amount ; 


以 上 语句 给 客户 表 增 加 了 四 列 ， 表 示 客 户 的 送 货 地 址 。 销 售 订单 表 
在 销售 金额 列 后 面 增加 了 销售 数量 列 。 注 意 after 天 键 字 ， 这 是 MySQL 对 
标准 SQL 的 扩展 ，Hive 目 前 还 不 文 持 这 种 扩展 ， 只 能 把 新 增 列 加 到 己 有 
列 的 后 面 ， 分 区 列 之 前 。 在 关系 理论 中 ， 列 是 没有 顺序 的 。 


使 用 如 下 HiveQL 语 句 修改 RDS 数 据 库 模 式 。 








USe 


rds; 
alter table 


customer add 


columns 
(shipping address varchar 


(50) comment 


' shipping. address' 
, Shipping zip code int comment 


' shipping. zip code' 
, Shipping city varchar 


(30) comment 


'shipping city' 
, Shipping state varchar 


(2) comment 


'shipping state') ; 
alter table 


sales order add 


columns (order quantity int comment 


'order quantity!) ; 


上 面 的 DDL 语 句 和 MySQL 的 很 像 ， 增 加 了 对 应 的 数据 列 ， 并 添加 
了 列 的 注释 。RDS 库 表 使 用 的 是 默认 的 文本 存储 格式 ， 因 此 可 以 直接 使 
用 alter table 语 句 修改 表 结 构 。 需 要 注意 的 是 RDS 表 中 列 的 顺序 要 和 源 数 
据 库 严格 保持 一 臻 。 因 为 客户 表 和 产品 表 是 全 量 窗 盖 抽取 数据 ， 所 以 如 
果 源 和 目标 顺序 不 一 样 ， 将 产生 错误 的 结 


使 用 下 面 的 HiveQL 语 句 修 改 DW 数 据 库 模式 。 


use dw; 

-- 修改 客户 维度 表 

-- 原 表 改名 作为 备份 表 

alter table customer dim rename to customer dim old; 

ao SEM AT 

create table customer_dim ( 
customer_sk int comment 'surrogate key', 
customer_number int comment 'number', 
customer_name varchar(50) comment 'name', 
customer_street_address varchar(50) comment 'address', 
customer_zip_code int comment 'zipcode', 
customer_city varchar(30) comment 'city', 


























customer state varchar(2) comment 'state', 

shipping address varchar(50) comment 'shipping address', 
shipping zip code int comment 'shipping zip code', 
shipping city varchar(30) comment 'shipping city', 
shipping state varchar(2) comment 'shipping state', 
version int comment 'version', 

effective date date comment 'effective date', 

expiry date date comment 'expiry date' 


clustered by (customer sk) into 8 buckets 
stored as orc tblproperties ('transactional'-'true'); 
-- 导入 备份 表 数 据 
insert into customer dim 
select customer sk,customer number,customer name, 
customer street address,customer zip code,customer city, 
customer state,null,null,null,null, 
version,effective date,expiry date 
from customer dim old; 
-- 删除 备份 表 


drop table customer dim old; 


-- 修改 销售 订单 事实 表 
alter table sales order fact rename to sales order fact old; 
create table sales order fact ( 
order sk int comment 'order surrogate key', 
customer sk int comment 'customer surrogate key', 
product sk int comment 'product surrogate key', 
order date sk int comment 'date surrogate key', 
order amount decimal(10 , 2 ) comment 'order amount', 
order quantity int comment 'order quantity' 


clustered by (order sk) into 8 buckets 
stored as orc tblproperties ('transactional'-'true'); 


insert into sales order fact select *,null from sales order fact 


drop table sales order fact old; 








上 面 这 段 代 码 修改 DW 数据 库 模 式 ， 它 比 之 前 的 RDS 表 修改 语句 要 
复杂 。 读 者 不 免 产 生 这 样 的 疑问 : 明明 可 以 直接 在 表 上 添加 列 ， 为 何 要 
新 建 一 个 表 ， 再 把 数据 装载 到 新 表 中 呢 ? 原因 是 老 版 本 的 Hive 对 ORC 格 
式 表 的 模式 修改 ， 尤 其 是 增加 列 的 支持 有 很 多 问题 ， 只 有 通过 新 建 表 并 
重新 组 织 数据 的 方式 才能 正常 执行 。 看 下 面 的 简单 例子 就 会 更 清楚 了 。 














use 





columns (c3 string) ; 
update 


ti set 


c2-'ccc' where 


Cl; 
select * from 


ti; 


上 面 的 代码 建 了 一 个 ORC 表 ， 插 入 一 行 数据 ， 添 加 一 列 ， 修 改 数 
据 ， 最 后 再 查询 数据 。 这 些 在 关系 数据 库 中 很 普通 的 操作 ， 最 后 一 步 奉 
询 居然 显示 如 下 出 错 信息 : 





Error: java.io.IOException: java.lang.ArrayIndexOutOfBoundsExcep 


本 示例 是 在 Hive 1.1.0 上 执行 的 ，JIRA 上 说 2.0.0 修 复 了 ORC 表 模式 
修改 的 问题 ， 可 以 参考 以 下 链接 的 说 明 : 
https://issues.apache.org/jira/browse/HIVE-11981. 

注意 ， 在 低 版 本 的 Hive 上 修改 ORC 表 的 模式 ， 特 别 是 增加 列 时 一 定 
要 慎重 。 当 数据 量 很 大 时 ， 这 会 是 一 个 相当 费时 并 会 占用 大 量 空间 的 操 
fies 











2. 重建 Sqoop 作 业 


由 于 增加 了 数据 列 ， 销 售 订单 表 的 增 量 抽取 作业 要 把 销售 数量 这 个 
新 增 列 的 数据 抽取 过 来 ， 因 此 需要 重建 。 使 用 下 面 的 脚本 重建 Sqoop 作 


业 ， 增 加 order_quantity 列 。 


last_value=*sqoop job --show myjob incremental import --meta-con 
jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep incremental.last.valu 
sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 

--create myjob incremental import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales order \ 

--columns "order number, customer number, product code, order da 
order quantity 


NS 

- -hive-import \ 

--hive-table rds.sales order \ 
--incremental append \ 
--check-column order number \ 
--last-value $last value 





这 段 命 令 的 意思 已 经 在 9.2 节 “建立 定期 装载 工作 流 ” 中 解释 过 了 ， 这 
里 只 是 在 --columns 参 数 的 最 后 增加 了 order_quantity 列 。 和 维度 表 一 样 ， 
要 注意 源 表 和 目标 表 的 顺序 保持 一 致 。 








3. 修改 定期 装载 regular_etl.sql 文 件 


修改 数据 库 模式 后 ， 还 要 修改 已 经 使 用 的 定期 装载 HiveQL 有 和 脚本， 
增加 对 新 增 数据 列 的 处 理 。 我 们 只 需要 对 regular_etl.sql 文 件 中 客户 维度 
表 和 销售 订单 事实 表 的 部 分 进行 修改 。 
-- 装载 customer 维 度 


-- 设置 已 删除 记录 和 地 址 相关 列 上 scd2 的 过 期 ， 用 <=> 运 算 符 处 理 nu1L1 值 。 
update 





customer dim set 


expiry date = $(hivevar:pre date? 
where 


customer dim.customer sk in 


(select 


a.customer sk 
from 


(select 


customer sk,customer number,customer street address, 
customer zip code,customer city,customer state, 
shipping address,shipping zip code,shipping city,shipping 


from 


customer dim where 


expiry date = $(hivevar:max date?) a 
left join 


rds.customer b on 


a.customer number - b.customer number 
where 


b.customer number is null or 


(!(a.customer street address «-» b.customer street add 


or !(a.shipping address «-» b.shipping address) )) 


同 客 户 地 址 一 样 ， 新 增 的 送 货 地 址 列 也 是 用 SCD2 新 增 历史 版 本 。 
与 8.4 节 建立 的 定期 装载 脚本 中 相同 部 分 比较 ， 会 发 现 这 里 使 用 了 一 个 
新 的 关系 操作 符 “<=>”， 这 是 因为 原来 的 脚本 中 少 判断 了 一 种 情况 。 在 
源 系统 库 中 ， 客 户 地 址 和 送 货 地 址 列 都 是 允许 为 空 的 ， 这 样 的 设计 是 出 
于 灵活 性 和 容错 性 的 考虑 。 我 们 以 送 货 地 址 为 例 进行 讨论 。 

使 用 “tl.shipping_address <> t2.shipping_address” 条 件 判 断送 货 地 址 
是 否 更 改 ， 根 据 不 等 号 两 边 的 值 是 否 为 空 ， 会 出 现 以 下 三 种 情况 : 

(1) tlL.shipping_address 和 t2.shipping_address 都 不 为 空 。 这 种 情况 
下 如 果 两 者 相等 则 返回 false， 说 明 地 址 没有 变化 ; 否则 返回 true， 说 明 
HEHEA T, BI EM o 

(2) tl.shipping_address 和 t2.shipping_address 都 为 室 。 两 者 的 比较 
会 演变 成 null<>null， 根 据 Hive 对 “<>” 操 作 符 的 定义 ， 会 返回 NULL。 
为 查询 语句 中 只 会 返回 判断 条 件 为 true 的 记录 ， 所 以 不 会 返回 数据 行 ， 











这 符合 我 们 的 逻辑 ， 说 明 地 址 没有 改变 。 

(3) tl.shipping_address 和 t2.shipping_address 只 有 一 个 为 空 。 就 是 
说 地 址 列 从 NULL 变 成 非 NULL， 或 者 从 非 NULL 变 成 NULL， 这 种 情况 
明显 应 该 新 增 一 个 版 本 ， 但 根据 “<>” 的 定义 ， 此 时 返回 值 是 NULL， 碍 
询 不 会 返回 行 ， 不 符合 我 们 的 需求 。 

现在 使 用 “!(a.shipping_address <=> b.shipping_address)” 作 为 判断 条 
件 ， 我 们 先 看 一 下 Hive 里 是 怎么 定义 “<=>” 操 作 符 的 : A <=> B 一 
Returns same result with EQUAL(=) operator for non-null operands, but 
returns TRUE if both are NULL, FALSE if one of the them is NULL. Mix 
个 定义 可 知 ， 当 A 和 B 都 为 NULL 时 返回 TRUE， 其 中 一 个 为 NULL 时 返 
回 FALSE， 其 他 情况 与 等 号 返回 相同 的 结果 。 下 面 再 来 看 这 三 种 情况 : 


(1) tlL.shipping_address 和 t2.shipping_address 都 不 为 空 。 这 种 情况 
下 如 果 两 者 相等 则 返回 !(true)， 即 false， 说 明 地 址 没有 变化 ， 否 则 返回 ! 
(false)， 即 true， 说 明 地 址 改变 了 ， 符 合 我 们 的 逻辑 。 


(2) tl.shipping_address 和 t2.shipping_address 都 为 室 。 两 者 的 比较 
会 演变 成 !{null<=>null))， 根 据 *<=>” 的 定义 ， 会 返回 !(true)， 即 返回 
false。 因 为 得 询 语 句 中 只 会 返回 判断 条 件 为 true 的 记录 ， 上 所 以 查询 不 会 
返回 行 ， 这 符合 我 们 的 逻辑 ， 说 明 地 址 没有 改变 。 

(3) tl.shipping_address 和 t2.shipping_address 只 有 一 个 为 空 。 根 
据 “<=>” 的 定义 ， 此 时 会 返回 !(false)， 即 true， 查 询 会 返回 行 ， 符 合 我 们 
的 需求 。 

空 值 的 逻辑 判断 有 其 特殊 性 ， 为 了 避免 不 必要 的 厂 烦 ， 数 据 库 设计 
时 应 该 尽量 将 字段 设计 成 非 空 ， 必 要 时 用 默认 值 代 蔡 NULL， 并 将 此 作 
为 一 个 基本 的 设计 原则 。 


-- 处 理 地 址 列 上 scd2 的 新 增 行 
insert into 














customer dim 
select row number() 


over (order by 


ti.customer number) + t2.sk max, 

ti.customer number,ti1.customer name,ti.customer street address, 
ti.customer zip code,ti.customer city,ti.customer state, 
ti.shipping address,ti.shipping zip code 


ti.shipping city,ti.shipping state 


[4 
ti.version,ti.effective date,ti1.expiry date 
from 


(select 


t2.customer number customer number, 
t2.customer name customer name, 
t2.customer street address customer street address, 
t2.customer zip code customer zip code, 
t2.customer city customer city, 
t2.customer state customer state, 
t2.shipping address shipping address 


t2.shipping zip code shipping zip code 


t2.shipping city shipping city 


t2.shipping state shipping state 


ti.version + 1 version, 

$(hivevar:pre date) effective date, 

$(hivevar:max date) expiry date 
from 


customer dim t1 
inner join 


rds.customer t2 on 


ti.customer number = t2.customer number 
and 


ti.expiry date = $(hivevar:pre date) 
left join 


customer dim t3 on 


ti.customer number = t3.customer number 
and 


t3.expiry date = $[(hivevar:max date) 
where (!(ti.customer street address <=> t2.customer street addre 


or !(ti.shipping address <=> t2.shipping address) ) 


and 


t3.customer sk is null 


) t1 
cross join 


(select coalesce (max 


(customer sk),0) sk max from 


customer dim) t2; 
上 面 的 语句 生成 SCD2 的 新 增 版 本 行 ， 增 加 了 送 货 地 址 的 处 理 ， 注 
意 列 的 顺序 要 正确 。 


-- 处 理 customer_name 列 上 的 scd1 
drop table if exists 














tmp; 
create table 


tmp as 


select 


a.customer sk,a.customer number,b.customer name, 
a.customer street address,a.customer zip code, 
a.customer city,a.customer state, 

a.shipping address,a.shipping zip code 


a.shipping city,a.shipping state 


a.version,a.effective date,a.expiry date 
from 


customer dim a, rds.customer b 
where 


a.customer number - b.customer number 
and !(a.customer name «-» b.customer name) 


/ 
delete from 
customer dim where 


customer dim.customer sk in 


(select 


customer sk from 


tmp); 
insert into 


customer dim select * from 


tmp; 


customer_name 列 上 的 scd1 处 理 只 是 在 Select 语句 中 增加 了 送 贷 地 址 
的 四 列 ， 并 出 于 同样 的 原因 使 用 了 “<=>” 关 系 操作 符 。 


-- 处 理 新 增 的 customer 记 录 
insert into 

















customer_dim 
select row number() 


over (order by 


ti.customer number) + t2.sk max, 

ti.customer number,ti1.customer name,ti.customer street address, 
ti.customer zip code,ti.customer city,ti.customer state, 
ti.shipping address,ti.shipping zip code 


ti.shipping city,ti.shipping state 


1,${hivevar:pre_date}, ${hivevar :max_date} 
from 


(select 
t1.* from 


rds.customer t1 
left join 


customer_dim t2 on 


ti.customer_number = t2.customer number 
where 


t2.customer_sk is null 


) t1 
cross join 


(select coalesce (max 


(customer sk),0) sk max from 


customer dim) t2; 


对 于 新 增 的 客户 ， 也 只 是 在 select 语 句 中 增加 了 送 货 地 址 的 4 列 ， 其 
他 没有 变化 。 
-- 装载 销售 订单 事实 表 


insert into 





sales order fact 
select 


order sk,customer sk,product sk,date sk,order amount,order quan 


from 


rds.sales order a,order dim b,customer dim c, 
product dim d,date dim e,rds.cdc time f 
where 


a.order number - b.order number 
and 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) = e.date 


and 


a.entry date »- f.last load and 


a.entry date « f.current load ; 





对 于 装载 销售 订单 事实 表 的 修改 很 简单 ， 只 要 将 新 增 的 销售 数量 列 
添加 到 伍 询 语句 中 即 可 。 修 改 完成 以 后 ， 保 存 regular_etl.sql 文 件 。 定 期 
装载 脚本 的 其 他 部 分 无 须 修改 。 








4. 测试 


(1) 执行 下 面 的 SQL 脚本 ， 在 MySQL 的 源 数据 库 中 增加 客户 和 销 
售 订单 测试 数据 。 


USe 


source; 
update 


customer set 


shipping address = customer street address, 
shipping zip. code = customer zip code, 
shipping city - customer city, 

shipping state - customer state ; 
insert into 


customer 
(customer name, 
customer street address, 
customer zip. code, 
customer city, 
customer state, 
shipping. address, 
shipping. zip. code, 
shipping. city, 
shipping. state) 
values 


('online distributors', 
'2323 louise dr.', 


17055, 
'pittsburgh', 
'pa', 
'2323 louise dr.', 
17055, 


'pittsburgh', 


'pa') ; 


-- 新 增订 单 日 期 为 2016 年 7 月 12 日 的 9 条 订单 。 
set 





Qstart date := unix timestamp('2016-07-12'); 
set 


Qend date := unix timestamp('2016-07-13'); 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 


1-0; 


set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


@amount := floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 


(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


(117, 1, 1, Qorder date, Qorder date, Qamount, Qquantity); 


新 增 9 条 订单 ，.， 
insert into 





sales order 
select null 


[4 

customer number, 
product code, 
order date, 
entry date, 
order amount, 
order quantity 
from 


temp sales order data 
order by 


order date; 
commit 


上 面 的 语句 生成 了 两 个 表 的 测 斌 数据。 客户 表 更 新 了 已 有 8 个 客户 
的 送 货 地 址 ， 并 新 增 编 号 为 9 的 客户 。 销 售 订单 表 新 增 了 9 条 记录 。 


(2) 执行 定期 装载 并 但 看 结果 。 
使 用 下 面 的 命令 执行 定期 装载 。 





./regular etl.sh 


命令 成 功 执行 后 查询 dw.customer_dim 表 ， 应 该 看 到 已 存在 客户 的 新 
TRA SIRS GL, BAAS A. SRA HM 
的 ， 具 有 送 货 地 址 。 查 询 dw.sales_order_fact 表 ， 应 该 只 有 9 个 订单 有 销 
售 数量 ， 老 的 销售 数据 数量 字段 为 空 。 





10.2 ”维度 子 集 








有 些 需 求 不 需要 最 细 市 的 数据 。 例 如 更 想 要 某 个 月 的 销售 汇总 ， 而 
不 是 东 天 的 数据 。 再 比如 相对 于 全 部 的 销售 数据 ， 可 能 对 茶 些 特定 状态 
的 数据 更 感 兴趣 等 。 此 时 事实 数据 需要 关联 到 特定 的 维度 ， 这 些 特定 维 
度 包含 在 从 细节 维度 选择 的 行 中 ， 所 以 叫 维度 子 集 。 维 度 子 集 比 细节 维 
度 的 数据 少 ， 因 此 更 易 使 用 ， 碍 询 也 更 快 。 
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维度 表 具 有 相同 的 属性 或 内 容 ， 我 们 称 这 样 的 维度 表 具 有 一 致 性 。 一 至 
的 维度 具有 一 致 的 维度 关键 字 、 一 致 的 属性 列 名 字 、 一 致 的 属性 定义 以 
及 一 致 的 属性 值 。 如 果 属 性 的 会 义 不 同 或 者 包含 不 同 的 值 ， 维 度 表 就 不 
是 一 致 的 。 


子 维度 是 一 种 一 致 性 维度 ， 由 基本 维度 的 列 与 行 的 子 集 构 成 。 当 构 
建 聚 合 事实 表 ， 或 者 需要 获取 粒度 级 别 较 高 的 数据 时 ， 需 要 用 到 子 维 
度 。 例 如 ， 有 一 个 进 销 存 业 务 系统 ， 和 零售 过 程 获取 原子 产品 级 别 的 数 
据 ， 而 预测 过 程 需要 建立 品牌 级 别 的 数据 。 无 法 跨 两 个 业务 过 程 模 式 ， 
共有 至 单一 产品 维度 表 ， 因 为 它们 需要 的 粒度 是 不 同 的 。 如 果品 牌 表 属 性 
是 产品 表 属 性 的 严格 的 子 集 ， 则 产品 和 品牌 维度 仍然 是 一 致 的 。 在 这 个 
例子 中 需要 建立 品牌 维度 表 ， 它 是 产品 维度 表 的 子 集 。 对 基本 维度 和 子 
维度 表 来 说 ， 属 性 例如， 品牌 和 分 类 描述 ) 是 公共 的 ， 其 标识 和 定义 
相同 ， 两 个 表 中 的 值 相同 ， 然 而 ， 基 本 维度 和 子 维度 表 的 主键 是 不 同 
的 。 注 意 : 如 林子 维度 的 属性 是 基本 维度 属性 的 真子 集 ， 则 子 维度 与 基 
本 维度 保持 一 致 。 

还 有 力 外 一 种 情况 ， 殊 是 当 两 个 维度 上 共有 同样 粒度 级 别 的 细 市 数 
据 ， 但 其 中 一 个 仅 表 示 行 的 部 分 子 集 时 ， 也 需要 一 致 性 维度 子 集 。 例 
如 ， 某 公司 产品 维度 包含 跨 多 个 不 同业 务 的 所 有 产品 组 合 ， 如 服装 类 、 
电器 类 等 。 对 不 同业 务 的 分 析 可 能 需要 浏览 企业 级 维度 的 子 集 ， 需 要 分 
析 的 维度 仅 包含 部 分 产品 行 。 与 该 子 维度 连接 的 事实 表 必 须 补 限制 在 同 
样 的 产品 子 集 。 如 果 用 户 试图 使 用 子 集 维度 ， 访 问 包含 所 有 产品 的 集 
合 ， 则 因为 违反 了 参照 完整 性 ， 他 们 可 能 会 得 到 预料 之 外 的 合 询 结果 。 
再 要 认识 到 这 种 造成 用 户 混 消 或 错误 的 维度 行 子 集 的 情况 。 

ETL 数 据 流 应 当 根 据 基本 维度 建立 一 致 性 子 维度 ， 而 不 是 独立 于 基 
本 维度 ， 以 确保 一 致 性 。 本 节 中 将 准备 两 个 特定 子 维度 ， 月 份 维度 与 
Pennsylvania 州 客户 维度 。 它 们 均 取 自 现 有 的 维度 ， 月 份 维度 是 日 期 维 



































上 度 的 子 集 ，Pennsylvania 州 客户 维度 是 客户 维度 的 子 集 。 
1. 建立 包含 属性 子 集 的 子 维度 


Bee n doo e o 
度 。 在 销售 订单 示例 中 ， 当 除了 需要 日 销售 数据 外 ， 要 月 销售 数据 
时 ， 会 出 现 这 样 的 需求 。 pA ORDENA. eet ae 
并 问 其 装载 数据 。 


为 了 从 日 期 维度 同步 导入 月 份 维度 ， 要 把 月 份 装 载 嵌 入 到 日 期 维度 
的 预 装载 脚本 中 。 因 此 需要 修改 6.6 节 里 生成 日 期 维度 数据 的 
date_dim_generate.sh 文 件 。 下 面 是 修改 后 的 date_dim_generate.sh 文 件 内 
容 (省略 了 没有 修改 的 部 分 〉。 


#!/bin/bash 
beeline -u jdbc:hive2://cdh2:10000/dw -f create table date dim.s 

















date1="$1" 
ek E 
while [ $min -le $max ] 


7o AR HU... 


done 





hdfs dfs -put -f date dim.csv /user/hive/warehouse/dw.db/date di 


beeline -u jdbc:hive2://cdh2:10000/dw -f append date.sql 


在 装载 日 期 维度 数据 的 脚本 中 ， 先 调用 了 一 个 名 为 


create_table_date_dim.sql 的 HiveQL 文 件 ， 这 是 一 个 新 建 的 脚本 文件 。 然 
后 用 shell 生 成 日 期 文本 文件 ， 这 部 分 没有 变化 。 生 成 的 日 期 文件 被 上 传 
到 HDFS 的 date_dim_tmp 目 录 ， 而 不 是 原来 的 date dim 目录。 最 后 调用 名 
为 append_date.sql 的 HiveQL 文 件 妃 加 日 期 数据 。append_date.sql 是 男 一 
个 新 创建 的 脚本 文件 。 


create_table_date_dim.sql 文 件 内 容 如 下 : 








use 


dw; 
-- 日 期 维度 临时 表 
create table if not exists 


date dim tmp ( 
date sk int comment 


'surrogate key', 
date date comment 


‘date, yyyy-mm-dd', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'date dimension table' 
row format 


delimited fields terminated by 


',' stored as 


textfile; 
-- 建立 目 期 维度 表 
create table if not exists 





date dim ( 
date sk int comment 


'surrogate key', 
date date comment 


' date, yyyy-mm-dd', 
month tinyint comment 


'month', 


month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'date dimension table' 
clustered by 


(date sk) into 8 buckets stored as 


orc tblproperties ('transactional'-'true'); 
-- 建立 月 份 维度 表 


create table if not exists 





month dim ( 
month sk int comment 


'surrogate key', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'month dimension table' 
clustered by 


(month sk) into 8 buckets stored as 


orc tblproperties ('transactional'-'true') ; 


以 上 的 HiveQL 语 句 建立 了 三 个 表 ，date_dim_tmp 是 存储 日 期 维度 数 
据 的 临时 表 ， 使 用 默认 的 文本 文件 格式 ，shell 脚 本 生成 的 日 期 文件 会 先 
装载 到 这 个 表 中 。 这 个 临时 表 的 结构 与 日 期 维度 表 完 全 相同 。date_dim 
和 month_dim 分 别 是 日 期 维度 表 和 月 份 维度 表 。 可 以 看 到 ， 月 份 维度 表 
除了 代理 键 列 ， 其 他 属性 都 包含 在 日 期 维度 表 中 。 子 维度 的 主键 必须 独 
立 构 建 ， 不 能 依赖 于 基本 维度 的 主键 。 日 期 和 月 份 维度 表 都 使 用 ORC 文 
件 格 式 ， 这 是 为 了 文 持 以 后 可 能 出 现 的 数据 更 新 需求 。 





create_table_date_dim.sql 文 件 会 在 shell 脚 本 中 的 第 一 个 beeline 命 令 
中 引用 。shell 脚 本 可 能 会 多 次 执行 〈 比 如 追加 日 期 数据 ) 。 因 此 我 们 在 
建 表 语 句 中 使 用 了 if not exists 子 句 ， 目 的 是 在 首次 执行 shell 脚 本 时 创建 
表 。 如 果 以 后 再 次 执行 shell， 虽 然 依 然 会 调用 create_table_date_dim.sql 
文件 ， 但 因为 表 已 经 存在 ， 这 些 建 表 语 名 会 被 忽略 而 不 报 任何 错误 ， 使 
得 后 面 的 shell 命 令 继续 执行 。 


新 增 的 append_date.sql 文 件 内 容 如 下 : 








USe 


dw; 
-- 向 日 期 维度 表 仍 加 数据 


insert into 


date dim 
select row number() 


over (order by date) 


* t2.sk max, 
ti.date 


t1.month 


ti.month name, 
ti.quarter, 
ti.year 


from 


(select date,month 


,month name,quarter,year from 


date dim tmp) t1 
cross join 


(select coalesce(max 


(date sk),0) sk max from 


date dim) t2; 
-- 向 月 份 维度 表 奶 加 数据 


insert into 


month dim 
select row number() 


over (order by 


t1.year 


,ti.month 


) * t2.sk max, 
t1.month 


ti.month name, 
ti.quarter, 
t1.year 


from 


(select distinct month 


, month name, quarter, year from 


date dim tmp) t1 cross join 


(select coalesce(max 


(month sk),0) sk max from 


month dim) t2; 


上 面 的 语句 从 date_dim_tmp 表 查询 数据 ， 并 追加 到 日 期 维度 表 和 月 
份 维度 表 。 使 用 row_number() 函 数 生 成 维度 表 的 代理 键 。 月 份 维 度数 据 





是 用 distinct 关 键 字 对 date_dim_tmp 表 的 数据 去 重 得 到 的 。 


了 解 了 所 有 这 些 代 人 码 以 后 ， 就 可 以 总 结 出 生成 日 期 维度 和 月 份 维度 
数据 的 整个 流程 。 只 需要 执行 date_dim_generate.sh 脚 本 文件 就 可 以 生成 
维度 表 数 据 ， 这 种 设计 将 暴露 给 外 部 的 接口 尽量 简单 化 ， 而 将 复杂 的 逻 
辑 封装 在 脚本 内 部 。 每 次 执行 时 ， 如 果 相 关 表 不 存在 则 首先 创建 表 ， 然 
后 生成 一 个 日 期 文本 文件 date_dim.csv， 并 将 此 文件 内 容 装 载 到 临时 表 
date_dim_tmp 中 。 最 后 在 append_date.sql 文 件 中 处 理 从 临时 表 到 日 期 维 
度 和 月 份 维度 的 数据 闭 载 。 


之 所 以 要 用 一 个 临时 表 过 渡 ， 有 两 点 原因 : 一 是 考虑 到 后 续 可 能 需 
要 追加 日 期 ， 而 不 是 重新 生成 所 有 日 期 维度 数据 。 二 是 现在 的 date_dim 
和 month_dim 表 是 ORC 格 式 的 二 进 制 文件 ， 不 能 直接 从 文本 文件 LOAD 
数据 ， 只 能 从 一 个 普通 文本 文件 格式 的 表 插入 数据 。 

无 论 何 时 ， 使 用 修改 后 的 date_dim_generate.sh 脚 本 增加 日 期 记录 
时 ， 如 果 这 个 日 期 所 在 的 月 份 没 在 月 份 维度 中 ， 那 么 该 月 份 就 会 被 疙 载 
到 月 份 维度 中 。 下 面 测试 一 下 日 期 和 月 份 维度 表 数 据 的 预 装载 。 


(1) 删除 date_dim_tmp、date_dim、month_dim 表 : 

















dw; 
drop table if exists 


date dim tmp; 
drop table if exists 


date dim; 
drop table if exists 


month dim; 


(2) 执行 预 装载 脚本 ， 生 成 从 2000 年 1 月 1 日 到 2010 年 12 月 31 日 的 
日 期 数据 : 


./date dim generate.sh 2000-01-01 2010-12-31 


首次 执行 相关 表 都 会 新 建 ， 并 生成 4018 行 日 期 维度 表 数 据 ，132 行 
月 份 维度 表 数 据 。 


(3) 再 次 执行 预 装载 ， 追 加 从 2011 年 1 月 1 日 到 2020 年 12 月 31 日 的 
日 期 数据 : 


./date dim generate.sh 2011-01-01 2020-12-31 


这 次 执行 是 向 已 有 的 维度 表 中 追加 日 期 ， 执 行 成 功 后 ， 日 期 维度 表 
共有 7671 行 记录 ， 从 2000 年 1 月 1 日 到 2020 年 12 月 31 日 ， 月 份 维度 表 共 有 
252 条 记录 ， 从 2000 年 1 月 到 2020 年 12 月 。 


一 致 性 日 期 和 月 份 维度 是 用 于 展示 行 和 列 维度 子 集 的 独特 实例 。 显 
然 ， 无 法 简单 地 使 用 同样 的 日 期 维度 访问 日 或 月 事实 表 ， 因 为 它们 的 料 
度 不 同 。 月 维度 中 要 排除 所 有 不 能 应 用 月 粒度 的 列 。 例 如 ， 假 设 日 期 维 
度 有 一 个 促销 期 标志 列 ， 用 于 标识 该 日 期 是 否 属于 某 个 促销 期 之 中 。 该 
列 不 适用 月 层次 上 ， 因 为 一 个 月 中 可 能 有 多 个 促销 期 ， 而 且 并 不 是 一 个 
月 中 的 每 一 天 都 是 促销 期 。 促 销 标记 适用 于 天 这 个 层次 。 


2. 建立 包含 行 子 集 的 子 维度 


当 两 个 维度 处 于 同一 细节 粒度 ， 但 是 其 中 一 个 仅仅 是 行 的 子 集 时 ， 
会 产生 为 外 一 种 一 致 性 维度 构造 子 集 。 例 如 ， 销 售 订单 示例 中 ， 客 户 维 
度 表 包含 多 个 州 的 客户 信息 。 对 于 不 同 州 的 销售 分 析 可 能 需要 浏览 客户 
维度 的 子 集 ， 需 要 分 析 的 维度 仅 包 含 部 分 客户 数据 。 通 过 使 用 行 的 子 























集 ， 不 会 破坏 整个 客户 集合 。 当 然 ， 与 该 子 集 连 接 的 事实 表 必 须 被 限制 
在 同样 的 客户 子 集中 。 

月 份 维度 是 一 个 上 卷 维 度 ， 包 含 基本 维度 的 上 层 数据 。 而 特定 维度 
子 集 是 选择 基本 维度 的 行 子 集 。 执 行 下 面 的 脚本 建立 特定 维度 表 ， 并 导 
入 Pennsylvania (PA) 客 户 维 度 子 集 数据 。 








use 


dw; 
create table 


pa customer dim ( 
customer sk int comment 


'surrogate key', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 


customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 


teity . 
customer state varchar 


(2) comment 


'state', 
shipping address varchar 


(50) comment 


'shipping address', 
shipping zip code int comment 


'shipping zip code', 
shipping city varchar 


(30) comment 


'shipping city', 
shipping state varchar 


(2) comment 


'shipping state', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 


) 
clustered by 
(customer sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


TER, PA PARR SSeS A PEE TRA WA ES KH: 


e pa_customer_dim 表 和 customer_dim 表 有 完全 相同 的 列 ， 而 
month_dim 不 包含 date_dim 表 的 日 期 列 。 

e pa_customer_dim 表 的 代理 键 就 是 客户 维度 的 代理 键 ， 而 
month_dim 表 里 的 月 份 维度 代理 键 并 不 来 自 日 期 维度 ， 而 是 独立 





生成 的 。 
通常 在 基本 维度 表 装 载 数 据 后 ， 进 行 包含 其 行 子 集 的 子 维度 表 的 数 

据 装 载 。 修 改定 期 装载 regular_etl.sql 脚 本 文件 ， 增 加 对 PA 客户 维度 的 处 
理 ， 这 里 只 是 在 装载 完 customer_dim 后 简单 重 载 PA 客 户 维 度数 据 ， 修 改 
后 的 regular_etlsql 文 件 内 容 如 下 《只 列 出 增加 的 部 分 ) : 

-- 设置 变量 以 支持 事务 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 

- -设置 cdc 的 上 限时 间 

装载 customer 维 度 


- - 重 载 pa 客 户 维度 


truncate table 











pa customer dim; 
insert into 


pa customer dim 
select 


customer sk,customer number,customer name, 

customer street address,customer zip code,customer city, 
customer state,shipping address,shipping zip code,shipping city, 
shipping. state,version,effective date,expiry date 

from 


customer dim 
where 


customer state - 'pa' ; 


-- 装载 product 维 度 


PS 装载 order 维 度 
- - 装载 销售 订单 事实 表 
-- 更 新 时 间 截 表 的 last_load 字 自 











上 面 的 语句 在 处 理 完 客户 维度 表 后 ， 装 载 PA 客 户 维 度 。 每 次 重新 
窗 新 pa_customer_dim 表 中 的 所 有 数据 。 先 用 truncate table 语 句 清 空 
然后 用 insert into .… select 语 句 ， 从 客户 维度 表 中 选取 Pennsylvania 州 的 数 
据 ， 并 插入 到 pa_customer_dim 表 中 。 之 所 以 没有 使 用 insert overwrite 
table 这 种 一 句 话 的 解决 方案 ， 是 因为 在 某 些 版 本 的 Hive 中 ， 对 ORC 表 使 
用 overwrite 会 出 错 。 为 了 保持 良好 的 兼容 性 ， 使 用 了 比较 成 熟 的 truncate 
语句 。 

保存 修改 后 的 regular_etl.sql 文 件 ， 使 用 以 下 步 又 测试 PA 客户 子 维度 
的 数据 装载 : 

(1) 执行 下 面 的 SQL 脚本 往 客户 源 数据 里 添加 一 个 PA 州 的 客户 和 4 

OHI RA BIND 的 客户 。 





USe 


source; 
insert into 


customer 

(customer name, customer street address, customer zip code, 
customer city, customer state, shipping address, 
shipping zip code, shipping city, shipping state) 

values 


('pa customer', '1111 louise dr.', '17050', 


'mechanicsburg', 'pa', '1111 louise dr.', 
'17050', 'mechanicsburg', 'pa'), 

('bigger customers', '7777 ridge rd.', '44102', 
'cleveland', 'oh', '7777 ridge rd.', 

'44102', 'cleveland', 'oh'), 

('smaller stores', '8888 jennings fwy.', '44102', 
'cleveland', 'oh', '8888 jennings fwy.', 

'44102', 'cleveland', 'oh'), 

('small-medium retailers', '9999 memphis ave.', '44102', 
'cleveland', 'oh', '9999 memphis ave.', 

'44102', 'cleveland', 'oh'), 

('oh customer', '6666 ridge rd.', '44102', 
'cleveland', 'oh', '6666 ridge rd.', 
'44102','cleveland', 'oh') ; 

commit 


以 上 代码 在 一 条 insert into ... values 语 句 中 插入 多 条 数据 ， 这 种 语法 
是 MySQL 对 标准 SQL 语法 的 扩展 。 


(2) 使 用 下 面 的 命令 执行 定期 装载 。 


./regular etl.sh 





(35 使 用 下 面 的 查询 验 证 结 末 。 


select 


customer name, customer state, effective date, expiry date 
from 


dw.pa customer dim; 


3， 使 用 视图 实现 维度 子 集 
为 了 实现 维度 子 集 ， 我 们 创建 了 新 的 子 维度 表 ， 修 改 了 日 期 数据 预 








装载 和 ETL 定 期 装载 脚本 ， 并 进行 了 测试 。 除 了 需要 较 大 的 工作 量 ， 这 
种 实现 方式 还 有 两 个 主要 问题 ， 一 是 需要 额外 的 存储 空间 ， 因 为 新 创建 
的 子 维度 是 物理 表 ， 二 是 存在 数据 不 一 致 的 潜在 风险 。 本 质 上 ， 只 要 相 
同 的 数据 存储 多 份 ， 束 会 有 数据 不 一 致 的 可 能 。 这 也 就 是 为 什么 在 数据 
库 设 计时 要 强调 规范 化 以 最 小 化 数据 见 余 的 原因 之 一 。 为 了 解决 这 些 问 
题 ， 还 有 一 种 常用 的 做 法 是 在 基本 维度 上 建立 视图 生成 子 维度 。 下 面 是 
创建 子 维度 视图 的 HiveQL 语 句 。 


- 建立 月 份 维度 视图 
create view 











month dim as 


select row number() 


over (order by 


ti.year 


, t1.month 


) month_sk, t1.* 
from 


(select distinct month 


, month name, quarter, year 


from 


date dim) t1; 
-- 建立 PA 维 度 视图 
create view 








pa customer dim as 


select * 


from 


customer dim 
where 


customer state - 'pa'; 





这 种 方法 的 主要 优点 是 : 实现 简单 ， 只 要 创建 视图 ， 不 需要 修改 原 
来 脚本 中 的 逻辑 ， 不 占用 存储 空间 ， 因 为 视图 不 真正 存储 数据 ; 消除 了 
数据 不 一 致 的 可 能 ， 因 为 数据 只 有 一 份 。 虽 然 优点 很 多 ， 但 此 方法 的 缺 
点 也 十 分 明显 : 当 基 本 维度 表 和 子 维度 表 的 数据 量 相差 悬殊 时 ， 性 能 会 
比 物理 表 差 得 多 ;， 如 果 定 义 视图 的 查询 很 复杂 ， 并 且 视 图 很 多 的 话 ， 可 
能 会 对 元 数据 存储 系统 造成 压力 ， 严 重 影响 查询 性 能 。 下 面 我 们 看 一 下 
Hive 对 视图 的 文 持 。 











Hive 从 0.6 版 本 开始 支持 视图 功能 。 视 图 具有 唯一 的 名 字 ， 如 果 所 在 
数据 库 中 已 经 存在 同名 的 表 或 视图 ， 创 建 语 句 会 抛 出 错误 信息 ， 可 以 使 
用 CREATE ... IF NOT EXISTS 语 句 跳 过 错误 。 如 果 在 视图 定义 中 不 显 式 
写 列 名 ， 视 图 列 的 名 字 自 动 从 select 表 达 式 衍生 出 来 。 如 果 select 包 含 没 
有 别名 的 标量 表达 式 ， 例 如 x+y， 视 图 的 列 名 将 会 是 c0、_cl 等 。 重 命 
名 视图 的 列 名 时 ， 可 以 给 列 增加 注释 。 注 释 不 会 自动 从 底层 表 的 列 继 
FE 


注意 视图 是 与 存储 无 关 的 纯粹 的 逻辑 对 象 ， 当 前 的 Hive 不 文 持 物化 
视图 。 当 但 询 引 用 了 一 个 视图 ， 视 图 的 定义 被 评估 后 产生 一 个 行 集 ， 用 
作 碍 询 后 续 的 处 理 。 这 只 是 一 个 概念 性 的 描述 ， 实 际 上 ， 作 为 查询 优化 
的 一 部 分 ，Hive 可 能 把 视图 的 定义 和 查询 结合 起 来 考虑 ， 而 不 一 定 是 先 
生成 视图 所 定义 的 行 集 。 例 如 ， 优 化 絮 可 能 将 查询 的 过 小 条 件 下 推 到 视 
图 中 。 


一 旦 视图 建立 ， 它 的 结构 就 是 固定 的 ， 之 后 底层 表 的 结构 改变 ， 如 
添加 字段 等 ， 不 会 反映 到 视图 的 结构 中 。 如 果 底 层 表 被 删除 了 ， 或 者 表 
结构 改变 成 一 种 与 视图 定义 不 兼容 的 形式 ， 视 图 将 变 为 无 效 状态 ， 其 上 
的 查询 将 失败 。 

视图 是 只 读 的 ， 不 能 对 视图 使 用 LOAD 或 INSERT 语 句 装载 数据 ， 

但 可 以 使 用 alter view 语 句 修 改 视图 的 某 些 元 数据 。 视 图 定义 中 可 以 包含 
order by 和 jlimit 子 句 ， 例 如， 如 果 一 个 视图 定义 中 指定 了 limit 5， 而 查询 
语句 为 Select * from v limit 10， 那 么 至 多 会 返回 5 行 记 录 。 使 用 SHOW 
CREATE TABLE 语 句 会 显示 创建 视图 的 CREATE VIEW 语句 。 在 Hive 
2.2.0 中 ， 可 以 使 用 SHOW VIEWS 语 句 显示 一 个 数据 库 中 的 视图 列表 。 


10.3 角色 扮演 维度 


























单个 物理 维度 可 以 被 事实 表 多 次 引用 ， 每 个 引用 连接 逻辑 上 存在 关 








异 的 角色 维度 。 例 如 ， 事 实 表 可 以 有 多 个 日 期 ， 每 个 日 期 通过 外 键 引 用 
不 同 的 日 期 维度 ， 原 则 上 每 个 外 键 表示 不 同 的 日 期 维度 和 视图， 这样 引 用 
共有 不 同 的 含义 。 这 些 不 同 的 维度 视图 具有 唯一 的 代理 键 列 名 ， 被 称 为 
角色 ， 相 关 维 度 被 称 为 角色 扮演 维度 。 

当 一 个 事实 表 多 次 引用 一 个 维度 表 时 会 用 到 角色 扮演 维度 。 例 如 ， 
一 个 销售 订单 有 一 个 是 订单 日 期 还 有 一 个 请 求 交 付 日 期 ， 这 时 就 需要 
引用 日 期 维度 表 两 次 。 

我 们 期 望 在 每 个 事实 表 中 设置 日 期 维度 ， 因 为 总 是 布 望 按照 时 间 来 
分 析 业 务 情况 。 在 事务 型 事实 表 中 ， 主 要 的 日 期 列 是 事务 日 期 ， 例 如 ， 
订单 日 期 。 有 时 会 发 现 其 他 日 期 也 可 能 与 每 个 事实 关联 ， 例 如 ， 订 单 事 
务 的 请 求 交 付 日 期 。 每 个 日 期 应 该 成 为 事实 表 的 外 键 。 

本 节 将 说 明 两 类 角色 扮演 维度 的 实现 ， 分 别 是 表 别 名 和 数据 库 视 
图 。 这 两 种 实现 都 使 用 了 Hive 文 持 的 功能 。 表 别名 是 在 SQL 语句 里 引用 
维度 表 多 次 ， 每 次 引用 都 赋予 维度 表 一 个 别名 。 而 数据 库 视 图 ， 则 是 按 
照 事 实 表 需 要 引用 维度 表 的 次 数 ， 建 立 相 同 数量 的 视图 。 我 们 先 修改 销 
售 订 单数 据 库 模 式 ， 添 加 一 个 请 求 交 付 日 期 字段 ， 并 对 数据 抽取 和 装载 
脚本 做 相应 的 修改 。 这 些 表 结构 修改 好 后 ， 插 入 测试 数据 ， 演 示 别 名 和 
视图 在 角色 扮演 维度 中 的 用 法 。 


1. 修改 数据 库 柑 式 


使 用 下 面 的 脚本 修改 数据 库 模式 。 分 别 给 数据 仓库 里 的 事实 表 
sales_order_fact 和 和 源 库 中 销售 订单 表 sales_order 增 加 
request_delivery_date_sk 和 request_delivery_date 字 上 段 。 






































- in hive 
use 


dw; 
-- Sales_order_fact 表 是 orc 格 式 ， 增 加 列 需要 重建 数据 
alter table 











sales order fact rename to 


sales order fact old; 
create table 


sales order fact ( 
order sk int comment 


'order SK', 
customer sk int comment 


'customer SK', 
product sk int comment 


'product SK', 
order date sk int comment 


'date SK', 
request delivery date sk int comment 'request delivery date 


order amount decimal 


(10 , 2 ) comment 


'order amount', 
order quantity int comment 


'order quantity' 


) 
clustered by 
(order sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


sales order fact 
select 


order sk, customer sk, product sk, order date sk, 
null 


, order amount, order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 
-- 修改 过 渡 区 的 sales_order 表 
Use 





rds; 
alter table 


sales order add 


columns (request delivery date date comment 


'request delivery 
date') ; 
-- in mysql 
use 


source; 
alter table 


sales order add 


request delivery date date after 


order date ; 


增加 列 的 过 程 已 经 在 本 章 开头 详细 讨论 过 。DW 库 的 销售 订单 事实 
表 是 ORC 格 式 ， 因 此 增加 列 时 需要 重建 表 ， 并 加 载 书 有 数据 。 在 这 个 表 
上 增加 请 求 交 付 日 期 代理 键 字 段 ， 数 据 类 型 是 整 型 。 已 有 记录 在 该 新 增 
字段 上 的 值 为 空 。 过 渡 区 的 销售 订单 表 是 默认 的 文本 格式 ， 因 此 可 以 下 











接 用 alter table 命 令 增 加 请 求 交 付 日 期 字段 。 与 订单 日 期 不 同 的 是 ， 访 列 
的 数据 类 型 是 date， 我 们 不 考虑 请 求 交 付 日 期 中 包含 时 间 的 情况 。 因 为 
不 文 持 after 语 法 ， 新 增 的 字段 会 加 到 所 有 已 存在 字段 的 后 面 。 最 后 给 源 
数据 库 的 销售 订单 事务 表 增 加 请 求 交 付 日 期 列 ， 同 样 是 date 类 型 。 修 改 
后 DW 数 据 库 模式 如 图 10-2 所 示 。 

















product dim customer dim 
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order_number 
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图 10-2 ”数据 仓库 中 增加 请 求 交 付 日 期 属性 


从 图 中 可 以 看 到 ， 销 售 订单 事实 表 和 日 期 维度 表 之 间 有 两 条 连 线 ， 
表示 订单 日 期 和 请 求 交 付 日 期 都 是 引用 日 期 维度 表 的 外 键 。 注 意 ， 虽 然 
图 中 显示 了 表 之 间 的 关联 关系 ， 但 Hive 中 并 没有 主 外 键 数据 库 约 束 。 














2. 重建 Sqoop 作 业 


使 用 下 面 的 脚本 重建 Sgqoop 作 业 ， 增 加 request_delivery_date 列 的 数 
据 抽 取 。 


last value-'sqoop job --show myjob incremental import --meta-con 
jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep incremental.last.valu 
sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 

--create myjob_incremental_import \ 


import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales order \ 

--columns "order number, customer number, product code, order da 
order quantity, request delivery date 


n N 

--hive-import \ 

--hive-table rds.sales order \ 
--incremental append \ 
--check-column order_number \ 
--last-value $last_value 


注意 columns 参 数值 中 列 的 顺序 ， 即 MySQL 中 source.sales_order 表 列 
的 选取 顺序 ， 要 和 rds.sales_order 表 中 列 定义 的 顺序 保持 一 致 。 


修改 定期 装载 regular_etl.sql 文 件 


定期 装载 HiveQL 脚 本 需要 增加 对 请 求 交 付 日 期 列 的 处 理 ， 修 改 后 
的 脚本 如 下 所 示 (只 显示 修改 的 部 分 〉。 


- - 设置 变量 以 支持 事务 . 

-- 设置 scd 的 生效 时 间 和 过 寸 期 时 间 is 
-- 设置 cdc 的 上 限时 间 ... 

-- 装载 customer 维 度 ... 

-- 重 载 pa 客户 维度 ... 

-- 装载 product 维 度 ... 

-- 装载 order 维 度 ... 

-- 装载 销售 订单 事实 表 ... 


insert into 

















sales order fact 
select 


order sk,customer sk,product sk,e.date sk, 
f.date sk 


,Order amount,order quantity 
from 


rds.sales order a, 
order dim b, 
customer dim c, 
product dim d, 
date dim e, 
date dim f 


rds.cdc time g 
where 


a.order number - b.order number 
and 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


,Order date »- d.effective date 
and 


e 


a.order date « d.expiry date 


and to date 


(a.order date) = e.date 


and to date(a.request delivery date) - f.date 


and 


e 


.entry date »- g.last load 
and 


e 


.entry date « g.current load ; 


-- 更 新 时 间 惟 表 的 last_1Load 字 段 ,,， 


如 代码 中 的 加 粗 部 分 所 示 ， 在 装载 销售 订单 事实 表 时 ， 关 联 了 日 期 
维度 表 两 次 ， 分 别 赋予 别名 e 和 f。 事 实 表 和 两 个 日 期 维度 表 关 联 ， 取 得 
日 期 代理 键 。e.date_sk 表 示 订 单 日 期 代理 键 ，f.date_sk 表 示 请 求 交 付 日 
期 的 代理 键 。 








4. 测试 


C1) 执行 下 面 的 SQL 脚 本 在 源 库 中 增加 三 个 带 有 交 货 日 期 的 销售 
订单 。 


use 


source; 
/*** 新 增订 单 日 期 为 2016 年 7 月 17 日 的 3 条 订单 。***/ 
set 





Qstart date := unix timestamp('2016-07-17'); 
set 


Qend date := unix timestamp('2016-07-18'); 
set 


Qrequest delivery date :- '2016-07-20'; 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 


1-0; 


set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 


(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


(126, 1, 1, Qorder date, 
Qrequest delivery date, Qorder date, @amount, @quantity),; 
， 插 入 3 条 订单 记录 ... 





insert into 


sales order 
select null 


,Ccustomer number,product code,order date, 
request delivery date,entry date,order amount,order quantity 
from 


temp sales order data order by 


order date; 
commit 


以 上 代码 在 源 库 中 新 增 了 三 条 销售 订单 记录 ， 订 单 日 期 为 2016 年 7 
月 17 日 ， 请 求 交 付 日 期 为 2016 年 7 月 20 日 。 


(2) 修改 rds.cdc_time 的 值 。 


insert 


overwrite table 


rds.cdc time 
select 


'2016-07-17', '2016-07-17' from 


rds.cdc time; 


为 了 测试 定期 装载 脚本 ， 需 要 把 最 后 执行 日 期 设置 为 2016 年 7 月 17 


日 ， 再 执行 定期 装载 时 会 处 理 新 插入 的 三 条 记录 。 
(3) 执行 定期 装载 并 但 看 结果 。 
使 用 下 面 的 命令 执行 定期 装载 。 


./regular etl.sh 








使 用 下 面 的 查询 验证 结果 。 


use 


dw; 
select 


a.order sk, request delivery date sk, c.date 


from 


sales order fact a, date dim b, date dim c 
where 


a.order date sk - b.date sk 
and 


a.request delivery date sk - c.date sk ; 


查询 结果 如 下 所 示 。 


4------------ 4-------------------------- 4------------ | 
| a.order sk | request delivery date sk | c.date | 


| 126 | 6046 | 2016-07-20 | 
[ET 人 | 6046 | 2016-07-20 | 
| 128 | 6046 | 2016-07-20 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 | 


3 rows selected (45.003 seconds) 





可 以 看 到 只 有 三 个 新 的 销售 订单 具有 request_delivery_date_sk 值 ， 
6046 对 应 的 日 期 是 2016 年 7 月 20 日 。 


(40 使 用 角色 扮演 维度 查询 。 
-- 使 用 表 别 名 查询 


use 


dw; 
select 


order date dim.date 


order date, 
request delivery date dim.date 


request delivery date, 
sum 


(order amount), count(*) 


from 


sales order fact a, 

date dim order date dim, 

date dim request delivery date dim 
where 


a.order date sk - order date dim.date sk 
and 


a.request delivery date sk - request delivery date dim.date sk 
group by 


order date dim.date 


, request delivery date dim.date 


cluster by 


order date dim.date 


, request delivery date dim.date 


P 
1 


-- 使 用 视图 查询 


use 





dw; 
-- 创建 订单 日 期 视图 
create view 








order date dim 
(order date sk, 
order date, 
month 


[4 

month name, 
quarter, 
year 


) 


as select * from 


date dim; 
-- 创建 请 求 交付 日 期 视图 
create view 











request delivery date dim 
(request delivery date sk, 
request delivery date, 
month 


[4 

month name, 
quarter, 
year 


as select * from 


date dim; 


-- 查询 
select 


order date,request delivery date,sum 


(order amount), count (*) 


from 


sales order fact a,order date dim b,request delivery date dim c 
where 


a.order date sk - b.order date sk 
and 


a.request delivery date sk - c.request delivery date sk 
group by 


order date , request delivery date 
cluster by 


order date , request delivery date; 








上 面 两 个 查询 是 等 价 的 。 尽 管 不 能 连接 到 单一 的 日 期 维度 表 ， 但 可 
以 建立 并 管理 单独 的 物理 日 期 维度 表 ， 然 后 使 用 视图 或 别名 建立 两 个 不 
同日 期 维度 的 描述 。 注 意 在 每 个 视图 或 别名 列 中 需要 唯一 的 标识 。 例 
如 ， 订 单 日 期 属性 应 该 具有 唯一 标识 order_date 以 便 与 请 求 交 付 日 期 








request_delivery_date 区 别 。 此 外 ，HiveQL 文 持 使 用 别名 ， 列 名 与 视图 在 
查询 中 的 作用 并 没有 本 质 的 区 别 ， 都 是 为 了 从 逻辑 上 区 分 同一 个 物理 维 
度 表 。 许 多 BI 工 具 也 文 持 在 语义 层 使 用 别名 。 但 是 ， 如 果 有 多 个 BIT 工 

有 具 ， 连 同 直接 基于 SQL 的 访问 ， 都 同时 在 组 织 中 使 用 的 话 ， 不 建议 采用 
语义 层 别名 的 方法 。 当 某 个 维度 在 单一 事实 表 中 同时 出 现 多 次 时 ， 则 会 
存在 维度 模型 的 角色 扮演 。 基 本 维度 可 能 作为 单一 物理 表 存 在 ， 但 是 每 
种 角色 应 该 被 当成 标识 不 同 的 视图 展现 到 BI 工具 中 。 


在 标准 SQL 中 ， 使 用 order ”by 子 句 对 碍 询 结果 进行 排序 ， 而 在 我 们 
的 查询 中 使 用 的 是 cluster by 子 句 ， 这 是 Hive 有 别 于 SQL 的 地 方 。 


Hive 中 的 order by. sort by. distribute by. cluster by 子 句 都 用 于 对 查 
询 结 果 进 行 排序 ， 但 处 理 方式 是 不 一 样 的 。 


Hive 中 的 order by 跟 传 统 的 SQL 语言 中 的 order by 作用 是 一 样 的 ， 会 
对 查询 的 结果 做 一 次 全 局 排序 ， 所 以 如 果 使 用 了 order by， 上 所 有 的 数据 
都 会 发 送 到 同一 个 reducer 进 行 处 理 。 不 管 有 多 少 map， 也 不 管 文件 有 多 
少 block 只 会 启动 一 个 reducer， 因 为 多 个 reducer 无 法 保证 全 局 有 序 。 对 
于 大 量 数 据 这 将 会 消耗 很 长 的 时 间 去 执行 。 

如 果 HiveQL 语 句 中 指定 了 sort by， 那么 在 每 个 reducer 端 都 会 做 排 
序 ， 也 就 是 说 保证 了 局 部 有 序 。 每 个 reducer 出 来 的 数据 是 有 序 的 ， 但 是 
不 能 保证 所 有 数据 全 局 有 序 ， 除 非 只 有 一 个 reducer。 这 样 做 的 好 处 是 ， 
执行 了 局 部 排序 之 后 可 以 为 接 下 去 的 全 局 排序 提高 不 少 的 效率 《其 实 残 
是 做 一 次 归并 排序 就 可 以 做 到 全 局 有 序 了 ) 。 

ditribute ”by 是 控制 map 的 输出 在 reducer 中 是 如 何 划 分 的 。 假 设 有 一 
张 名 为 store 的 丙 店 表 ，mid 是 指 这 个 了 商店 所 属 的 商户 ，money 是 这 个 了 商 
户 的 便利 ，name 是 商店 的 名 字 。 执 行 Hive 查 询 : 























select mid 


, money, name 
from 


store distribute by mid 
sort by mid asc 


money asc 


, 


Fr mid AH [9] E] ACHE zz IK FI [8] —~ reducerZz &REB, xb Ae DA ATE 
^E J distribute by mid, FEM TRAY EAST B SET TIL HB R8 S A] 
的 排序 了 。 这 肯定 是 全 局 有 序 的 ， 因 为 相同 的 商户 会 放 到 同一 个 reducer 
去 处 理 。 这 里 需要 注意 的 是 distribute by 必须 要 写 在 sort by 之 前 。 


cluster by 的 功能 就 是 distribute by 和 sort by 相 结 合 ， 但 是 排序 只 能 是 


升序 (全 少 Hive ”1.1.0 是 这 样 的 ) ， 不 能 指定 排序 规则 为 asc 或 者 desc。 
获得 与 上 面 的 碍 询 语句 一 样 的 效果 的 cluster by 写法 如 下 : 











select mid 
money, name from 


, 


store cluster by mid 


sort by 


money; 
5. 一 种 有 问题 的 设计 
为 处 理 多 日 期 问题 ， 一 些 设计 者 试图 建立 单一 日 期 维度 表 ， 该 表 使 
用 一 个 键 表示 每 个 订单 日 期 和 请 求 交 付 日 期 的 组 合 ， 例 如 : 
create table 
date dim (date sk int 
, order date date 


, delivery date date 


); 


create table 


sales_order_fact (date_sk int 


, order_amount int 





这 种 方法 存在 两 个 方面 的 问题 。 首 先 ， 如 果 需 要 处 理 所 有 日 期 维度 
的 组 合 情 况 ， 则 包含 大 约 每 年 365 行 的 清楚 、 简 单 的 日 期 维度 表 将 会 极 
度 膀 胀 。 例 如 ， 订 单 日 期 和 请 求 交 付 日 期 存在 如 下 多 对 多 关系 : 


订单 日 期 请 求 交 付 日 期 


2016-07-17 2016-07-20 
2016-07-18 2016-07-20 
2016-07-19 2016-07-20 
2016-07-17 2016-07-21 
2016-07-18 2016-07-21 
2016-07-19 2016-07-21 
2016-07-17 2016-07-22 
2016-07-18 2016-07-22 
2016-07-19 2016-07-22 





如 果 使 用 角色 扮演 维度 ， 日 期 维度 表 中 只 需要 2016-07-17 到 2016- 
07-22 ”6 条 记录 。 而 采用 单一 日 期 表 设 计 方 案 ， 每 一 个 组 合 都 要 唯一 标 
识 ， 明 显 需 要 九条 记录 。 当 两 种 日 期 及 其 组 合 很 多 时 ， 这 两 种 方案 的 日 
期 维度 表 记 录 数 会 相去 甚 远 。 


其 次 ， 合 并 的 日 期 维 上 度 表 不 再 适合 其 他 经 常 使 用 的 日 、 周 、 月 等 日 
期 维度 。 日 期 维度 表 每 行 记录 的 含义 不 再 指 唯一 一 天 ， 因 此 无 法 在 同一 
张 表 中 标识 出 周 、 月 等 一 致 性 维度 ， 进 而 无 法 简单 地 处 理 按时 间 维 度 的 
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10.4 层次 维度 


大 多 数 维度 都 具有 一 个 或 多 个 层次 。 例 如 ， 示 例 数据 仓库 中 的 日 期 
维度 就 有 一 个 四 级 层次 : 年 、 季 度 、 月 和 日 。 这 些 级 别 用 date_dim 表 里 
的 列表 示 。 日 期 维度 是 一 个 单 路 径 层 次 ， 因 为 除了 年 -季度 -月 -日 这 条 路 
径 外 ， 它 没有 任何 其 他 层次 。 为 了 识别 数据 仓库 里 一 个 维度 的 层次 ， 首 
先 要 理解 维度 中 列 的 含义 ， 然 后 识别 两 个 或 多 个 列 是 否 具 有 相同 的 主 
题 。 例 如 ， 年 、 季 度 、 月 和 日 具有 相同 的 主题 ， 因 为 它们 都 是 关于 日 期 
的 。 具 有 相同 主题 的 列 形成 一 个 组 ， 组 中 的 一 列 必须 包含 至 少 一 个 组 内 
的 其 他 成 员 〔 除 了 最 低级 别 的 列 )， 如 在 前 面 提 到 的 组 中 ， 月 包含 日 。 
这 些 列 的 链条 形成 了 一 个 层次 ， 例 如 ， 年 -季度 -月 -日 这 个 链条 是 一 个 日 
期 维度 的 层次 。 除 了 日 期 维度 ， 客 尸 维度 中 的 地 理 位 置信 息 ， 产 品 维度 
的 产品 与 产品 分 类 ， 也 都 构成 层次 关系 。 表 10-1 显 示 了 三 个 维度 的 层 








次 。 注 意 客 户 维度 具有 双 路 径 层 次 。 


























表 10-1 销售 订单 数据 仓库 中 的 层次 维度 


product dim 
shipping address 
shipping zip code | product category 


customer city shipping city quarter 








Shipping state ye 





本 市 插 述 处 理 层次 关系 的 方法 ， 包 括 在 固定 深度 的 层次 上 进行 分 组 
和 和 钻 取 得 询 ， 递 归 层 次 结构 的 数据 装载 、 展 开 与 平面 化 ， 多 路 径 层 次 和 
参考 不 齐 层 次 的 处 理 等 。 我 们 从 最 基本 的 情况 开始 讨论 。 


10.4.1 固定 深度 的 层次 


固定 深度 层次 是 一 种 一 对 多 关系 ， 例 如 ， 一 年 中 有 四 个 季度 ， 一 个 
季度 包含 三 个 月 等 。 当 固定 深度 层次 定义 完成 后 ， 层 次 就 具有 固定 的 名 
称 ， 层 次 级 别 作 为 维度 表 中 的 不 同属 性 出 现 。 只 要 满足 上 述 条 件 ， 固 定 
深度 层次 就 是 最 容易 理解 和 但 询 的 层次 关系， 固定 层次 也 能 够 提供 可 预 
测 的、 快速 的 查询 性 能 ， 可 以 在 固定 深度 层次 上 进行 分 组 和 钻 取 但 询 。 

分 组 查询 是 把 度量 按照 一 个 维度 的 一 个 或 多 个 级 别 进行 分 组 聚合 。 
下 面 的 脚本 是 一 个 分 组 得 询 的 例子 。 该 查询 按 产品 Cproduct category 
列 ) 和 日 期 维度 的 三 个 层次 级 别 〈year、quarter 和 month 列 ) 分 组 返回 销 
售 金额 。 
































select 


product_category, year 


,quarter,month, sum 


(order amount) s amount 
from 


sales order fact a,product dim b,date dim c 
where 


a.product sk - b.product sk 
and 


a.order date sk = c.date sk 
group by 


product category, year 


, quarter, month 


cluster by 


product category, year 


, quarter, month 


这 是 一 个 非常 简单 的 分 组 查询 ， 结 果 输 出 的 每 一 行 度量 《销售 订单 


SED 都 沿 着 年 -季度 -月 的 层次 分 组 。 


与 分 组 查询 类 似 ， 针 取得 询 也 把 度量 按照 一 个 维度 的 一 个 或 多 个 级 
别 进行 分 组 。 但 与 分 组 查询 不 同 的 是 ， 分 组 查询 只 显示 分 组 后 最 低级 
别 ， 即 本 例 中 月 级 别 上 的 度量 ， 而 钻 取 碍 询 显示 分 组 后 维度 每 一 个 级 别 
的 度量 。 下 面 使 用 两 种 方法 进行 钻 取 碍 询 ， 结 果 显 示 了 每 个 日 期 维度 级 
别 ， 即 年 、 季 度 和 月 各 级 别 的 订单 汇总 金额 。 











-- 使 用 union all 
select product category, time, order amount 
from 
( select product category, 
case when sequence = | then concat('year: ', time) 
when sequence = 2 then concat('gusrter: ', time) 
else concat('month: ', time) 
end time, 
order amount, sequence, date 
from 
( select product category, min(date) date, year time, 1 sequence, sum(order amount) 
order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year 
union all 
select product category, min(date) date, quarter time, 2 sequence, 
sum(order amount) order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year , quarter 
union all 
select product category, min(date) date, month time, 3 sequence, 
sum(order amount) order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year , quarter , month) x 
cluster by product category , date , sequence , time) y; 


-- filisrouping id 函数 
select product category, time, order amount 
from (select product category, 
case when gid = 3 then concat('year: ', year) 
when gid = 7 then concat('quarter: ', quarter) 

else concat('month: ', month) 

end time, 

order amount, gid, date 

from ( select product category, 
year, 
quarter, 
month, 
min(date) date, 
sum(order amount) order amount, 
cast(grouping id as int) gid 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 

and a.order date sk = c.date sk 

group by product category,year,quarter,month with rollup 
) x where gid > 1 

cluster by product category , date , gid , time) y; 


以 上 两 种 不 同 写 法 的 查询 语句 结果 是 相同 的 。 第 一 条 语句 的 子 查 询 
中 使 用 union all 集 合 操 作 将 年 、 季 度 、 月 三 个 级 别 的 汇总 数据 联合 成 一 





个 结果 集 。 注 意 union al 的 每 个 查询 必须 包含 相同 个 数 和 类 型 的 字段 。 
附加 的 min(date) 和 sequence 导 出 列 用 于 对 输出 结果 排序 显示 。 这 种 写法 
使 用 标准 的 SQL 语 法 ， 具 有 通用 性 。 


第 二 条 语句 使 用 HiveQL 提 供 的 grouping}}id 函 数 〈 注 意 是 两 个 下 划 
线 ) 和 with rollup 子 外。rollup 会 生成 按 产 品类 型 、 年 、 季 度 、 月 及 其 所 
有 分 组 的 聚合 数据 行 。 


with rollup 是 SQL 中 通用 的 语法 ， 它 只 能 和 group by 语句 一 同 使 用 。 
rollup 子 句 常 被 用 于 计算 一 个 维度 中 各 个 层级 的 聚合 数据 。 例 如 : 


select a, b, c, sum(d) from tabi group by a, b, c with rollup ; 


这 条 语句 假设 层次 是 从 “a” 下 销 到 “b” 再 下 和 钻 到 “c”。 与 该 语句 等 价 的 
group by 语句 为 : 
select a, b, c, sum(d) from tab1 group by a, b, c 
union all 
select a, b, null, sum(d) from tab1 group by a, b, null 
union all 
select a, null, null, sum(d) from tabi group by a, null, null 


union all 
select null, null, null, sum(d) from tabi ; 


在 上 面 的 例子 中 ，group by 后 面 不 跟 任何 列 求 sum 时 ，a、b、c 三 列 
在 聚合 数据 行 会 显示 为 nal。 当 列 本 喘 具 有 null 值 时 ， 了 驶 会 产生 混 消 ， 无 
法 区 分 得 询 结果 中 的 null 值 是 属于 列 本 身 的 还 是 聚合 的 结果 行 ， 因 此 需 
要 一 种 方法 识别 出 列 中 的 null 值 。grouping_id 函 数 就 是 此 场景 下 的 解决 
Tio 

这 个 函数 为 每 种 聚合 数据 行 生 成 唯一 的 组 id。 它 的 返回 值 看 起 来 像 
整 型 数值 ， 其 实 是 字符 串 类 型 ， 这 个 值 使 用 了 位 图 策略 (bitvector， 位 
Ae) ， 即 它 的 二 进 制 形式 中 的 每 一 位 表示 对 应 列 是 否 参 与 分 组 ， 如 果 
某 一 列 参与 了 分 组 ， 对 应 位 束 被 置 为 1， 否 则 为 0。 通 过 这 种 方式 可 以 区 
分 出 数据 本 身 中 的 null 值 。 考 虑 下 面 的 例子 : 














Columnl (key) Column2 (value) 
NULL 


4» Co Co DOP rn 
Co 
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select key, value, grouping id, count(*) from tl 
group by key, value with rollup; 


null null 0 6 
J null 1 2 
1 null3 1 
1 1 3 1 
2 De 
2 2 J iL 
3 nud 2 
3 pulk S T 
B 3 3 1 
4 Dub t 
4 5 3 aL 








注意 第 三 列 是 聚合 列 的 位 同 量 。 对 于 第 一 行 数据 ，grouping_ id 的 
值 为 0， 说 明 这 行 是 不 按 任 何 列 分 组 聚合 生成 的 行 。 第 二 行 的 
grouping _id 的 值 为 1， 说 明 按 是 第 一 列 分 组 生成 的 聚合 数据 行 。 第 三 行 
的 grouping_id 的 值 为 3， 说 明 是 按 两 列 分 组 聚合 的 行 ， 此 行 不 是 因为 
rollup 生 成 的 行 ， 而 是 查询 本 身 的 结果 行 。 据 此 分 析 ， 上 面 结果 中 粗 体 
显示 的 两 行 记 录 中 的 null 值 为 value 列 中 的 null， 而 不 是 rollup 行 中 的 


null. 


grouping ides) ZR [n ELE) AZ HR] EE ,— PO TT 
KE RAM P fÉproduct category. year. quarter. month 4 列 分 组 ， 则 位 
癌 量 为 四 位 。 根 据 分 组 的 顺序 ， 全 部 按 零 列 分 组 聚合 行 的 grouping_ id 
值 为 0， 按 product_category 分 组 聚合 的 行 grouping_ id 值 为 1， 以 此 类 
推 ， 按 year、quarter、month 分 组 聚合 行 的 grouping_ id 分 别 是 3、7、 
15。 查 询 中 使 用 where gid > 1 条 件 过 滤 ， 剩 下 的 就 是 按 年 、 季 度 、 月 分 
组 聚合 的 行 。min(date) 和 cast(grouping_id as inb 导 出 列 也 用 于 对 输出 结 











果 排 序 显示 。 
10.4.2 递归 


数据 仓库 中 的 关联 实体 经 常 表现 为 一 种 “ 父 一 子 ” 关 系 。 在 这 种 类 型 
的 关系 中 ， 一 个 父亲 可 能 有 多 个 孩子 ， 而 一 个 孩子 只 能 属于 一 个 父亲 。 
例如 ， 通 常 一 名 企业 员工 只 能 被 分 配 到 一 个 部 门 ， 而 一 个 部 门 会 有 很 多 
员工 。“ 父 一 于 "之 间 形 成 一 种 递归 型 树 结 构 ， 是 一 种 比较 理想 和 灵活 的 
存储 层次 关系 的 数据 结构 。 本 小 节 次 明 一 些 递归 处 理 的 问题 ， 包 括 数据 
装载 、 树 的 展开 、 递 归 碍 询 、 树 的 平面 化 等 技术 实现 。 销 售 订单 数据 仓 
库 中 没有 递归 结构 ， 为 了 保持 示例 的 完整 性 ， 本 小 市 将 会 使 用 力 一 个 与 
业务 无 关 的 通用 示例 。 


1. 建立 示例 表 并 添加 实验 数据 


- 在 mysql 的 Source 库 中 建立 源 表 
use 

















source; 
create table 


tree (c child int 
, c name varchar 


(100),c parent int 


/ 
create index 


idx1 on 


tree (c parent); 
create unique index 


tree pk on 


tree (c child); 
-- 递归 树 结 构 ，c_child 是 主键 ，c_parent 是 引用 c_child 的 外 刍 
alter table 











tree add 


(constraint 


tree_pk primary key 


(c child)); 
alter table 


tree add 


(constraint 


tree r01 foreign key 


(c parent) references 


tree (c child)); 
-- 添加 数据 


insert into 


tree (c child, c name, c parent) 


values 


(a; HAL; mM 


), (2 ' 节 点 2'， dy (37 "RAS" 
(5, 'TiRS', 2), (6, 
(9, "To" 


commit 


P 
, 


-- 在 hive 的 rds 库 中 建立 过 渡 表 
use 








rds; 
create table 


tree (c child int 


,Cc name varchar 





(sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


以 上 脚本 用 于 建立 递归 结构 的 测试 数据 环境 。 我 们 在 MySQL 的 源 

库 中 建 并 了 名 为 tree 的 表 ， 并 插入 了 11 条 测试 数据 。 该 表 只 有 子 市 扩 、 

节点 名 称 、 父 布 反 3 个 字段 ， 其 中 父 市 上 是 引用 子 节 扣 的 外 键 ， 它 们 构 
成 一 个 典型 的 递归 结构 。 可 以 把 tree 表 想象 成 体现 员工 上 下 级 关系 的 一 
种 抽象 。 数 据 仓 库 过 渡 区 的 表 结 构 和 源 表 一 样 ， 使 用 Hive 表 默认 的 文本 
文件 格式 。 数 据 仓 库 维 度 表 使 用 ORC 存 储 格 式 ， 为 演示 SCD2， 除 了 对 
应 源 表 的 3 个 字段 ， 还 增加 了 代理 键 、 版 本 号 、 生 效 时 间 和 过 期 时 间 4 个 
字段 。 初 始 时 源 表 数据 的 递归 树 结构 如 图 10-3 所 示 。 
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(5) (6) (7) (8) (9) (10) (11) 





图 10-3 ”递归 树 的 初始 数据 
2. 数据 装载 
递归 树 结 构 的 本 质 是 ， 在 任意 时 刻 ， 每 个 父 一 子 关 系 都 是 唯一 的 。 





通常 ， 操 作 型 系统 只 维护 层次 树 的 当前 视图 。 因 此 ， 输 入 数据 仓库 的 数 
据 通 常 是 当前 层次 树 的 时 间 点 快照 ， 这 就 需要 由 ETL 过 程 来 确定 发 生 了 
哪些 变化 ， 以 便 正确 记录 历史 信息 。 为 了 检测 出 过 时 的 父 一 子 天 系 ， 必 
须 通过 孩子 键 进行 查询 ， 然 后 将 父 杀 作为 结果 返回 。 在 这 个 例子 中 ， 对 
tree 表 采用 整体 拉 取 模式 抽 数 据 ，tree_dim 表 的 c_name 和 c_parent 列 上 使 
用 SCD2 装 载 类 型 。 也 就 是 说 ， 把 c_parent 当 作 源 表 的 一 个 普通 属性 ， 当 
一 个 节点 的 名 字 或 者 父 节 点 发 生变 化 时 ， 都 增加 一 条 新 版 本 记录 ， 并 设 
置 老 版 本 的 过 期 时 间 。 这 样 的 装载 过 程 和 销售 订单 的 例子 并 无 二 致 。 我 
们 创建 init_et]_tree.sh、init_et]_tree.sql、regular_et]_tree.sh、 

regular etl tree.sql 4 个 脚本 实现 tree_dim 维 度 表 的 初始 装载 和 定期 装载 。 


init_et]_tree.sh 文 件 用 于 初始 装载 ， 其 内 容 如 下 : 


#!/bin/bash 

sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
myassword --table tree --hive-import --hive-table rds.tree --hiv 
beeline -u jdbc:hive2://cdh2:10000/dw -f init etl tree.sql 








init etl tree,.,sql 文 件 内 容 如 下 : 
use 


dw; 
Wak Zu 


zc HR ae. 
truncate table 


tree_dim; 
insert into 


tree_dim 
select row number() 


over (order by 


ti.c child) + t2.sk max, 
t1.c child, ti.c name, ti.c parent, 1, '2016-03-01', '2200-01-01 
from 


rds.tree t1 
cross join 


(select coalesce(max 


(Ssk),0) sk max from 


tree dim) t2; 





初始 装载 的 过 程 很 简单 ， 用 Sqoop 全 量 抽取 数据 到 过 渡 区 ， 然 后 装 
载 进 数据 仓库 ， 同 时 生成 代理 键 和 其 他 字段 。 有 了 前 面 章 节 的 基础 ， 这 
些 都 很 好 理解 。 


regular_etl_tree. sh 文件 用 于 定期 装载 ， 其 内 容 如 下 : 

#!/bin/bash 

sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL-fals 
myassword --table tree --hive-import --hive-table rds.tree --hiv 
beeline -u jdbc:hive2://cdh2:10000/dw -f regular etl tree.sql 
regular etl _ tree,sdql 文 件 内 容 如 下 : 

-- 设置 变量 以 文 持 事务 ... 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 

-- 设置 cdc 的 上 限时 间 














-- sdc2 设 置 过 期 
update 


tree dim set 





or 


(!(a.c name <=> b.c name) or 


!(a.c parent <=> b.c parent) )); 
-- scd2 新 增 版 本 


insert into 





tree dim 
select row number() 


over (order by 


t1.c child) + t2.sk max, 

ti.c child, ti.c name, ti1.c parent, 
ti.version, ti.effective date, ti.expiry date 
from 


(select 


t2.c child c child, t2.c name c name, t2.c parent c parent, 
ti.version + 1 version, 
$(hivevar:pre date) effective date, $[hivevar:max date) expiry d 
from 


tree dim t1 
inner join 


rds.tree t2 on 


t1.c child = t2.c child 
and 


ti.expiry date = $(hivevar:pre date) 
left join 


tree dim t3 on 


t1.c child = t3.c child 
and 


t3.expiry date = $[(hivevar:max date) 
where 


(!(t1.c name <=> t2.c name) or 


I(ti1.c parent <=> t2.c parent)) 
and 


t3.sk is null 


\ ei 
cross join 


(select coalesce(max 


(sk),0) sk max from 


tree dim) t2; 
-- 新 增 的 记录 


insert into 





tree dim 
select row number() 


over (order by 


ti.c child) + t2.sk max, 

ti.c child, ti.c name, ti1.c parent, 

1, $(hivevar:pre date), $(hivevar:max date) 
from 


(select 


t1.* from 


rds.tree t1 
left join 


tree dim t2 on 


t1.c child = t2.c child where 


t2.sk is null 


) ti 
cross join 


(select coalesce(max 


(sk),0) sk max from 


tree dim) t2; 
-- SEU mlast loadE ... 


上 面 的 代码 只 列 出 了 SCD2 的 处 理 部 分 ， 它 和 销售 订单 的 处 理 类 
似 。 下 面 训 试 装载 过 程 。 
C1) 执行 初始 装载 。 
./init etl tree.sh 
此 时 碍 询 dw.tree_dim 表 ， 可 以 看 到 新 增 了 全 部 11 条 记录 。 
(2) 修改 源 表 所 有 节点 的 名 称 。 


-- 修改 名 称 
update 





tree set 


c name - concat(c name,' 1'); 


(3) 将 regular_etl.sql 文 件 中 的 set hivevar:cur date = current date(); 
行 改 为 set hivevar: cur. date = '2016-07-27'; 后 ， 执 行 定期 装载 。 


./regular etl tree.sh 


此 时 查询 dw.tree_dim 表 ， 可 以 看 到 维度 表 中 共有 22 条 记录 ， 其 中 新 
增 11 条 当前 版 本 记录 ， 老 版 本 的 11 条 记录 的 过 期 时 间 字 段 被 设置 
为 '2016-07-26'。 


(4) 修改 源 表 部 分 节点 的 名 称 ， 并 新 增 两 个 节点 。 


-- 修改 名 称 
Update 











tree set 
c name - replace 


(e names ^ dq Ge ahy 
where 


c child in 


(3, 3. 5 "B. 1); 
-- 增加 新 的 根 节 点 ， 并 改变 原来 的 父子 关系 


insert into 





tree values 


(12, 'WH12', null 


此 时 源 表 数 据 的 递归 树 结构 如 图 10-4 所 示 : 
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图 10-4 新 增 了 根 节点 











(5) 将 regular_etl.sql 文 件 中 的 SET hivevar:cur date - 
CURRENT_DATE(); 行 改 为 SET hivevar:cur date = '2016-07-28'; 后 ， 执 行 
定期 装载 。 


./regular etl tree.sh 


此 时 碍 询 dw.tree_dim 表 可 以 看 到 ， 现 在 维度 表 中 共有 29 条 记录 ， 其 
中 新 增 7 条 当前 版 本 记录 〈5 行 因为 改名 新 增 版 本 ， 其 中 1、3 既 改名 又 更 
新 父子 关系 ，2 行 新 增 节 点 ) ， 更 新 了 5 行 老 版 本 的 过 期 时 间 ， 被 设置 
为 '2016-07-27'。 


(6) 修改 源 表 部 分 节点 的 名 称 ， 并 删除 三 个 节点 。 








update 


tree 
set 


c name - (case when 


c child - 2 then 





此 时 源 表 数 据 的 递归 树 结构 如 图 10-5 所 示 : 


G) (53 C22 (8) (9) 


图 10-5 ”删除 子 树 





(7) 将 regular_etl.sql 文 件 中 的 SET hivevar:cur date - 
CURRENT_DATE(); 行 改 为 SET hivevar:cur date = '2016-07-29'; 后 ， 执 行 
定期 装载 。 


./regular etl tree.sh 


此 时 碍 询 dw.tree_dim 表 可 以 看 到 ， 现 在 维度 表 中 共有 31 条 记录 ， 其 
中 新 增 2 条 当前 版 本 记录 《〈 因 为 改名 ) ， 更 新 了 5 行 老 版 本 的 过 期 时 间 
《2 行 因为 改名 ，3 行 因为 节点 删除 ) ， 被 设置 为 '2016-07-28'。 


3. 树 的 展开 








有 些 BI 工 具 的 前 并 不 支持 递归 ， 这 时 递归 层次 树 的 数据 交付 技术 就 
是 “展开 ”(explode) 递归 树 。 展 开 是 这 样 一 种 行为 ， 一 边 裔 历 递归 树 ， 
一 边 产生 新 的 结构 ， 该 结构 包含 了 贯穿 树 中 所 有 层次 的 每 个 可 能 的 关 
系 。 展 开 的 结果 是 一 个 非 递 归 的 关系 对 表 ， 访 表 也 可 能 包含 描述 层次 树 
中 关系 所 处 位 置 的 有 关 属 性 。 将 树 展开 消除 了 对 递归 碍 询 的 需求 ， 因 为 
层次 不 再 需要 自 连 接 。 当 按 这 种 表格 形式 将 数据 交付 时 ， 使 用 简单 的 
SQL 查 询 就 可 以 生成 层次 树 报表 。 下 面 说 明 树 展开 的 实现 。 

- 建立 展开 后 的 目标 表 


create table 

















tree expand (c child int 


,C parent int 


,distance int 








展开 后 的 表 中 不 再 有 递归 结构 ， 每 行 表 示 一 对 父子 关系 ，distance 
字段 表示 父子 之 间 相 差 的 级 别 。 许 多 关系 数据 库 都 提供 递归 碍 询 的 功 
能 ， 例 如 在 Oracle 中 ， 就 可 以 使 用 下 面 的 代码 展开 递归 树 。 


-- 0racle 实 现 
insert into 





tree expand (c child, c parent, distance) 
with 


rec (c child, c parent, distance) as 


select 


c child, c child, 0 from 


tree 


union all 


select 


r.c child, s.c parent, r.distance + 1 
from 


rec r join 


tree s on 


r.c parent - s.c child 
where 


S.c parent is not null 


) 


select * from 


rec; 


目前 Hive 还 没有 递归 碍 询 功 能 ， 但 可 以 使 用 UDTF 来 实现 。 下 面 的 
代码 取 自 https://www.pythian.com/blog/recursion-in-hive/ (原来 的 代码 中 
缺少 import 部 分 ) ， 它 使 用 Scala 语 言 实 现 了 一 个 UDTF 用 于 展开 树 。 关 
于 UDTF 的 API 说 明 ， 参 考 
https://hive.apache.org/javadocs/r0.10.0/api/org/apache/hadoop/hive/ql/udf/ge 


package UDF 

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF 

import org.apache.hadoop.hive.serde2.objectinspector.primitive 
import org.apache.hadoop.hive.serde2.objectinspector.{ObjectInsp 
StructObjectInspector, ObjectInspector, PrimitiveObjectInspector 


class ExpandTree2UDTF extends GenericUDTF { 

var inputOIs: Array[PrimitiveObjectInspector] - null 

val tree: collection.mutable.Map[String,Option[String]] - 
collection.mutable.Map() 


override def initialize(args: Array[ObjectInspector]): StructO 
inputOIs = args.map{_.asInstanceOf[PrimitiveObjectInspector | 
val fieldNames = java.util.Arrays.asList("id", "ancestor", " 
val fieldOI - 
primitive.PrimitiveObjectInspectorFactory.javaStringObjectInspec 
jectInspector] 
val fieldOIs = java.util.Arrays.asList(fieldOI, fieldOI, fie 
ObjectinspectorFactory.getStandardStructObjectInspector(fiel 


def process(record: Array[Object]) { 
val id = inputOIs(0).getPrimitiveJavaObject(record(0)).asIns 
val parent = 
Option(inputOIs(1).getPrimitiveJavaObject(record(1)).asInstanceO 
tree += ( id -> parent ) 


J 
def close ( 
val expandTree = collection.mutable.Map[String,List[String]] 
def calculateAncestors(id: String): List[String] - 
tree(id) match ( case Some(parent) -» id :: getAncestors(p 
-» List(id) ) 
def getAncestors(id: String) - expandTree.getOrElseUpdate(id 
calculateAncestors(id)) 
tree.keys.foreach( id => 
getAncestors(id).zipWithIndex.foreach{ case(ancestor, level) => f 
ancestor, level)) } } 


ek 
将 这 段 代码 编译 成 jar 包 后 ， 就 可 以 提供 给 Hive 使 用 。 这 里 生成 的 jar 
文件 名 为 recursive-query.jar。 使 用 下 面 的 命令 将 相关 jar 包 复制 到 HDFS 。 


hdfs dfs -put recursive-query.jar /tmp/ 
hdfs dfs -put scala-library.jar /tmp/ 


执行 下 面 的 HiveQL 进 行 测试 。 


-- 添加 运行 时 jar 包 
add 


jar hdfs://cdh2:8020/tmp/recursive-query.jar; 
add 


jar hdfs://cdh2:8020/tmp/scala-library.jar; 
-- 建立 函数 
create function 





expand tree as 


'UDF.ExpandTree2UDTF' ; 
-- 使 用 UDTF 生 成 展开 后 的 数据 


insert 


overwrite table 


rds.tree expand 
select 


expand tree(cast 


(c child as 


string), cast 


(c parent as 


string)) from 


rds.tree; 


此 时 查询 rds.tree_expand 表 ， 可 以 看 到 记录 数 由 rds.tree 中 的 10 条 变 
为 展开 后 的 31 条 ， 部 分 展开 后 记录 如 下 所 未 : 
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4. ie AAW 


Hive 本 吴 还 没有 递归 得 询 功能 ， 但 正如 前 面 提 到 的 ， 使 用 简单 的 
SQL 碍 询 递归 树 展开 后 的 数据 ， 即 可 生成 层次 树 报表 ， 例 如 下 面 的 
HiveQL 语 句 实现 了 从 下 至 上 的 树 的 损 历 。 








select 


c child, 
concat ws 


('/',collect_set(cast 


(c parent as 


string))) as 


c path 
from 


tree expand group by 


c_child; 


这 里 collect_set 函 数 的 作用 是 对 c_parent 去 重 。 值 得 注意 的 是 ， 必 须 
保证 collect_set 的 参数 类 型 是 string 类 型 。 查 询 结果 如 下 所 示 。 


1/12 

PMY E 
3713712 
5/2/1/12 
6/2/1/12 
7/3/13/12 
8/3/13/12 
9/3/13/12 
12 

13/12 
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collect_set 函 数 返 回去 重 的 元 素数 组 。 对 于 非 group by 字段 ， 可 以 用 
Hive 的 collect_set 函 数 收 集 这 些 字 段 ， 返 回 一 个 数组 ， 使 用 数字 下 标 ， 
可 以 直接 访问 数组 中 的 元 素 。 假 设 表 中 数据 如 下 : 





eo Wt pmpmp 
gannocosoto 
OY C! FWY Hn 


使 用 collect_set 函 数 的 查询 语句 及 结果 如 下 : 


select cl, c2, collect set(c3) from t group by cl, c2; 
a b Eile Pl 
c d [ree "on tes] 
concat, wsPK Zik H FA TR EDMI ERTER, RR TT 
的 操作 。 它 有 两 种 形式 ， 一 种 以 不 定 个 数 的 字符 串 为 参数 ， 男 一 种 以 字 
符 串 数组 为 参数 (从 Hive 0.9.0 开 始 支 持 ) ， 分 别 如 下 所 示 : 
select concat ws('/','abc','123','cde','456'!) ; 
abc/123/cde/456 
select cl, c2, concat ws('/',collect set(c3)) from t group by cl, c2; 


1/2/3 
C d 4/5/6 


5. 递归 树 的 平面 化 


递归 树 适 合 于 数据 仓库 ， 而 非 递归 结构 则 更 适合 于 数据 集 市 。 前 面 
的 递归 树 展 开 用 于 消除 递归 查询 ， 但 缺点 在 于 检索 与 实体 相关 的 属性 必 
须 执行 额外 的 连接 操作 。 对 于 层次 树 来 说 ， 很 常见 的 情况 是 ， 层 次 树 元 
素 所 拥有 的 唯一 属性 就 是 描述 属性 ， 如 本 例 中 的 c_name 字 段 ， 并 且 树 的 
最 大 深度 是 固定 的 ， 本 例 是 4 层 。 对 这 种 情况 ， 最 好 是 将 层次 树 作 为 平 
面 化 的 INF 绪 构 或 者 2NF 结 构 交 付 给 数据 集 市 。 这 类 平面 化 操作 对 于 平 
衡 的 层次 树 发 挥 得 最 好 。 将 缺失 的 层次 置 空 可 能 会 形成 不 整齐 的 层次 
树 ， 因 此 它 对 深度 未 知 的 层次 树 ( 列 数 不 固 定 ) 来 说 并 不 是 一 种 有 用 的 
技术 。 下 面 说 明 递 归 树 平面 化 的 实现 。 


























- 建立 展开 后 的 目标 表 


create table 





tree complanate 
(c. 0 int 


, €. 0 name varchar 


(100), c 1 int 


, C 1 name varchar 


(100), 
c 2 int 


, Cc 2 name varchar 


(100), c 3 int 


, Cc 3 name varchar 


(100)); 


平面 化 后 ， 表 的 每 一 行 都 包含 全 部 四 个 层次 的 数据 。 执 行 下 面 的 语 


句 生成 递归 树 平面 化 后 的 数据 ， 每 个 叶子 节点 一 行 。 


insert 


overwrite table 


rds.tree complanate 
select 


tO.c Oc O,ti.c name c 0 name,tO.c 1 c 1,t2.c name c 1 name, 








tO.c 2- t3.c child 
inner join 


(select * from 


tree) t4 on 


EO, 623=> £476 child, 


split 函 数 用 指定 参数 分 隔 字 符 串 ， 返 回 值 是 一 个 数组 。 平 面 化 后 的 
数据 如 下 所 示 : 


12 saat dee al 节点 [22 节点 2m "o SEA 
12 ee 1 PAL 2 2 HA2 2 6 MEVO 1 
2 un IS Sepe dieu 2 TASS F fea 71 
T2 TA TS PAI 3 Dg B 节点 8 2 
d Seeds ils: Spel ses [se MON 
= Vy. a RPS > 
需要 注意 的 是 ，split 函 数 遇 到 特殊 字符 的 时 候 需 要 做 转 义 处 理 。 例 


Tl: 


select 


split('192.168.0.1','.') 


ER "n" "n" "N "N "N "N "N "n "n "N Sod 
, , , , , , , , , , , 


select 


split('192.168.0.1', '\.') 
Decca ecu cone heyhey a ve Ue st AULA 


select 


SDIIZt( 192168 205 NN 9 


[51927 "168", "aee pn 


10.4.3 ”多 路 径 层 次 





本 小 市 讨论 多 路 径 层 次 ， 它 是 对 单 路 径 层 次 的 扩展 。 现 在 数据 仓库 
的 月 维度 只 有 一 条 层次 路 径 ， 即 年 -季度 -月 这 条 路 径 。 在 本 小 节 中 增加 
一 个 新 的 “促销 期 ”级别 ， 并 且 加 一 个 新 的 年 -促销 期 -月 的 层次 路 径 。 这 
时 月 维度 将 有 两 条 层次 路 径 ， 因 此 是 多 路 径 层 次 维度 。 


下 面 的 脚本 给 month_dim 表 添加 一 个 叫做 campaign_session 的 新 列 ， 
并 建立 rds.campaign_session 过 渡 表 。 








use 


dw; 
-- 增加 促销 期 列 


alter view 

















month dim rename to 


month dim old; 
create table 


month dim ( 
month sk int comment 


'surrogate key', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
campaign session varchar 


(30) comment 


'campaign session', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 


) 


comment 


'month dimension table' 
clustered by 


(month sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true') 


, 


insert into 


month dim 
select 


month sk,month 


,month name,null 


,quarter,year from 


month dim old; 
drop view 


month dim old; 
-- 建立 促销 期 过 渡 
use 




















rds; 
create table 


campaign session 
(campaign session varchar 


(30),month tinyint 


,year smallint 


) 


row format 


delimited fields terminated by 


',' stored as 


textfile; 


假设 所 有 促销 期 都 不 跨 年 ， 并 且 一 个 促销 期 可 以 包含 一 个 或 多 个 月 


份 ， 但 一 个 月 份 只 能 属于 一 个 促销 期 。 为 了 理解 促销 期 如 何 工 作 ， 表 
10-2 给 出 了 一 个 促销 期 定义 的 示例 。 

















表 10-2 2016 年 促销 期 









































促销 期 Att 

2016 年 第 一 促销 期 1 月 一 4 月 

2016 年 第 二 促销 期 5 月 一 7 月 

2016 年 第 三 促销 期 8 月 

2016 年 第 四 促销 期 9 月 12 月 | 








每 个 促销 期 有 一 个 或 多 个 月 。 一 个 促销 期 也 许 并 不 是 正好 一 个 季 
度 ， 也 就 是 说 ， 促 销 期 级 别 不 能 上 卷 到 季度 ， 但 是 促销 期 可 以 上 卷 至 年 
级 别 。 假 设 2016 年 促销 期 的 数据 如 下 ， 并 保存 在 campaign_session.csv 文 
AFA 


2016 First Campaign,1, 2016 
2016 First Campaign, 2, 2016 
2016 First Campaign, 3, 2016 
2016 First Campaign, 4, 2016 
2016 Second Campaign, 5, 2016 
2016 Second Campaign, 6, 2016 


2016 Second Campaign, 7, 2016 
2016 Third Campaign, 8, 2016 
2016 Last Campaign, 9, 2016 

2016 Last Campaign, 10,2016 
2016 Last Campaign, 11,2016 
2016 Last Campaign, 12,2016 


现在 可 以 执行 下 面 的 脚本 把 2016 年 的 促销 期 数据 装载 进 月 维度 。 


load data local 


inpath '/root/campaign session.csv' overwrite 
into table 


rds.campaign session; 


use 


dw; 
drop table if exists 


tmp; 
create table 


tmp as 


select 


t1.month sk month sk, 
ti.month month 





month dim 
where 


month dim.month sk in (select 


month sk from 


tmp); 
insert into 


month dim select * from 


tmp; 


此 时 查询 月 份 维度 表 ， 可 以 看 到 2016 年 的 促销 期 已 经 有 数据 ， 其 他 
年 份 的 campaign_session 字 段 值 为 nul。 


10.44 ”参差 不 齐 的 层次 





在 一 个 或 多 个 级 别 上 没有 数据 的 层次 称 为 不 完全 层次 。 例 如 在 特定 
月 份 没 有 促销 期 ， 那 么 月 维度 残 具 有 不 完全 促销 期 层次 。 本 小 节 说 明 不 
完全 层次 ， 还 有 在 促销 期 上 如 何 应 用 它 。 


下 面 是 一 个 不 完全 促销 期 的 例子 ， 数 据 存储 在 ragged_campaign.csv 
文件 中 。2016 年 1 月 、4 月 、6 月 、9 月 、10 月 、11 月 和 12 月 没有 促销 期 。 


, 1,2016 

2016 Early Spring Campaign,2,2016 
2016 Early Spring Campaign, 3, 2016 
,4,2016 

2016 Spring Campaign,5,2016 























, 6,2016 

2016 Last Campaign,7,2016 
2016 Last Campaign, 8, 2016 
,9,2016 

, 10, 2016 

, 11,2016 

, 12, 2016 


下 面 的 命令 先 把 campaign_session 字 段 置 空 


载 促销 期 数据 。 


load data local 


inpath '/root/ragged campaign.csv' 
overwrite into table 


rds.campaign session; 


use 


dw; 
update 


month dim set 


campaign session - null 


drop table if exists 


tmp; 
create table 


然后 同 month_dim 表 装 








insert into 


month dim select * from 


tmp; 


在 有 促销 期 的 月 份 ，campaign_session 列 填写 促销 期 名 称 ， 而 对 于 
没有 促销 期 的 月 份 ， 该 列 填写 月 份 名 称 。 轻 微 参差 不 齐 层 次 没有 固定 的 
层次 深度 ， 但 层次 深度 有 限 。 如 地 理 层 次 深度 通常 包含 3 一 6 层 。 与 其 使 
用 复杂 的 机 制 构建 难以 预测 的 可 变 深 度 层 次 ， 不 如 将 其 变换 为 固定 深度 
位 置 设计 ， 针 对 不 同 的 维度 属性 确立 最 大 深度 ， 然 后 基于 业务 规则 放置 
属性 值 。 





10.5 ”退化 维度 


本 节 讨 论 一 种 称 为 退化 维度 的 技术 。 该 技术 减少 维度 的 数量 ， 简 化 
维度 数据 仓库 模式 。 简 单 的 模式 比 复 杂 的 更 容易 理解 ， 也 有 更 好 的 碍 询 
性 能 。 

有 时 ， 维 度 表 中 除了 业务 主键 外 没有 其 他 内 容 。 例 如 ， 在 我 们 的 销 
售 订单 示例 中 ， 订 单 维 度 表 除了 订单 号 ， 没 有 任何 其 他 属性 ， 而 订单 号 
是 事务 表 的 主键 。 我 们 将 这 种 维度 称 为 退化 维度 。 业 务 系统 中 的 主键 通 
常 是 不 允许 修改 的 。 销 售 订单 只 能 新 增 ， 不 能 修改 已 经 存在 的 订单 写 ， 
也 不 会 删除 订单 记录 。 因 此 订单 维度 表 也 不 会 有 历史 数据 版 本 问题 。 退 
化 维度 间 见 于 事务 和 累积 快照 事实 表 中 。 我 们 将 在 11.2 节 中 讨论 宗 积 快 
照 事 实 表 技 术 。 

销售 订单 事实 表 中 的 每 行 记录 部 包括 作为 退化 维度 的 订单 写 代理 
键 。 在 操作 型 系统 中 ， 销 售 订单 表 是 最 细 市 事务 表 ， 订 单 写 是 订单 表 的 














主键 ， 每 条 订单 都 可 以 通过 订单 号 定位 ， 订 单 中 的 其 他 属性 ， 如 客户 、 
产品 等 ， 都 依赖 于 订单 号 。 也 束 是 说 ,订单 写 把 与 订单 属性 有 关 的 表 联 
系 起 来 。 但 是 ， 在 维度 模型 中 ， 事 实 表 中 的 订单 号 代理 键 通 季 与 订单 属 
性 的 其 他 表 没 有 关联 。 可 以 将 订单 事实 表 所 有 关心 的 属性 分 类 到 不 同 的 
维度 中 ， 例 如 ,订单 日 期 关联 到 日 期 维度 ， 客 户 天 联 到 客户 维度 等 。 在 
事实 表 中 保留 订单 号 最 主要 的 原因 是 用 于 连接 数据 仓库 与 操作 型 系统 ， 
它 也 可 以 起 到 事实 表 主 键 的 作用 。 茶 些 情况 下 ， 可 能 会 有 一 个 或 两 个 属 
性 仍然 属于 订单 而 不 属于 其 他 维度 。 当 然 ， 此 时 订单 维度 就 不 再 是 退化 
维度 了 。 

退化 维度 通常 被 保留 作为 操作 型 事务 的 标识 符 。 实 际 上 可 以 将 订单 
号 作为 一 个 属性 加 入 到 事实 表 中 。 这 样 订单 维度 就 没有 数据 仓库 需要 的 
任何 数据 ， 此 时 就 可 以 退化 订单 维度 。 需 要 把 退化 维度 的 相关 数据 迁移 
到 事实 表 中 ， 然 后 删除 退化 的 维度 。 

TER, RYERSS PINE SAS, BION, WHS. RSI, te 
货 单 号 码 等 通常 产生 空 的 维度 并 且 表 示 为 事务 事实 表 中 的 退化 维度 。 


1. 退化 订单 维度 














使 用 维度 退化 技术 时 先 要 识别 数据 ， 分 析 从 来 不 用 的 数据 列 。 例 
如 ， 订 单 维度 的 order_number 列 就 可 能 是 这 样 的 一 列 。 如 果 用 户 想 看 事 
务 的 细节 ， 还 需要 订单 号 。 因 此 ， 在 退化 订单 维度 前 ， 要 把 订单 号 迁移 
到 sales_order fact 事 实 表 。 图 10-6 显 示 了 修改 后 的 模式 。 


按 顺 序 执行 下 面 的 四 步 退 化 order_dim 维 上 度 表 : 





(1) 给 sales_order_fact 表 添加 order_number 列 。 
(2) 把 order_dim 表 里 的 订单 号 迁移 到 sales_order fact. 
(3) 删除 sales_order fact 表 里 的 order_sk 列 。 


(4) 删除 order_dim 表 。 





















































effective date 


product sk £pi» XD expiry date 


product code 








date dim sales order fact EO customer_dim 
date sk £pi» GD | order mumber | customer sk £p? db 
date customer s <£12> customer_number 
month =e product_sk <fil> customer name 
month name O Pe der_date_sk <£13> _ | eustomer s treet_address 
quar ter ~] request delivery date sk <f14> “| eustomer rip code 
year order amount customer city 
oy] order quantity customer state 
Y shipping address 
Li shipping zip code 
i shipping city 
Y shipping_state 
product_dim version 





product_name 
product_category 
version 
effective_date 
expiry_date 


图 10-6 ”退化 订单 维度 


























下 面 的 脚本 完成 所 有 退化 订单 维度 所 需 的 步 又。 


USe 


dw; 
alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 





'customer SK', 
product sk int comment 


'product SK', 
order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity') 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


insert into table 


sales order fact 
select 


t2.order number, 
ti.customer sk, 
ti.product sk, 
ti.order date sk, 
ti.request delivery date sk, 
ti.order amount, 
ti.order quantity 

from 


sales order fact old t1 
inner join 


order dim t2 on 


ti.order sk = t2.order sk; 


drop table 


sales order fact old; 
drop table 


order dim; 


虽然 到 目前 为 止 ， 订 单 号 维度 表 中 代理 键 和 订单 号 业务 主键 的 值 相 
同 ， 但 还 是 建议 使 用 标准 的 方式 重新 生成 数据 ， 不 要 简单 地 将 事实 表 的 
order sk 字段 改名 为 order_number， 这 种 图 省 事 的 做 法 不 值得 提倡 。 


2. HE re HH Aes A Hal AS 





退化 一 个 维度 后 需要 做 的 另 一 件 事 就 是 修改 定期 装载 脚本 。 修 改 后 
的 脚本 需要 把 订单 号 加 入 到 销售 订单 事实 表 ， 而 不 再 需要 导入 订单 维 
度 。 下 面 显示 了 修改 后 的 regular_etl.sql 脚 本 文件 内 容 〈 只 列 出 修改 的 部 





aps 











-- WHAEDSBS ... 








-- 设置 scd 的 生效 时 间 和 过 期 时 间 ... 
-- 设置 cdc 的 上 限时 间 ... 
-- xe DU 


-- 重 载 pa 客户 维度 ， 


装载 product 维 度 . 
去 掉 装 载 order dim 维 度 表 的 语句 





-- BUE RSS 





-- 前 一 天 新 增 的 销 


insert into 





售 订单 


sales order fact 


select 


a.order number, 


from 


customer sk, 

product sk, 

e.order date sk, 

f.request delivery date sk, 
order amount, 

order quantity 


rds.sales order a, 


where 


customer dim c, 

product dim d, 

order date dim e, 

request delivery date dim f, 
rds.cdc time g 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and to date 


(a.request delivery date) - f.request delivery date 
and 


a.entry date »- f.last load and 


a.entry date « f.current load ; 


-- 更 新 时 间 玲 表 的 last_1oad 字 段 ,,， 
3. 测试 修改 后 的 定期 装载 
C1) 准备 两 行销 售 订单 测试 数据 。 


USe 


source; 


set 


Qstart date :- unix timestamp('2016-07-25'); 
set 


Qend date :- unix timestamp('2016-07-25 12:00:00'); 
set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


@amount := floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 


(10 + rand() 


* 90); 


insert into 


sales order values (null 


,1,1,00rder date, '2016-08- 
01',@order_date, @amount, @quantity); 


set 


@start_date := unix_timestamp('2016-07-25 12:00:01'); 
set 


@end_date := unix_timestamp('2016-07-26'); 
set 


@order_date := from_unixtime(@start_date + rand() 


* (@end_date - @start_date)); 


set 


Qamount :- floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 


(10 + rand() 


* 90); 


insert into 


sales order values (null 


,1,1,00rder date, '2016-08- 
01',@order_date, @amount, Qquantity); 


commit 





以 上 语句 在 源 库 上 生成 2016 年 7 月 25 日 的 两 条 销售 订单 。 为 了 保证 
上 自 增 订单 号 与 订单 时 间 顺 序 相 同 ， 注 意 一 下 @order_ date 变 量 的 赋值 。 








(2) 执行 定期 装载 。 
修改 定期 装载 时 间 窗 口 : 


insert 
overwrite table 


rds.cdc time 
select 


'2016-07-25', '2016-07-26' from 


rds.cdc time; 


将 regular_etl.sql 文 件 中 的 set hivevar:cur date = current. date); fT AON 
set hivevar:cur date = '2016-07-26";. 
执行 定期 装载 : 
./regular etl.sh 
脚本 执行 成 功 后 ， 碍 询 sales_order_fact 表 ， 验 证 新 增 的 两 条 订单 是 


否 正 确 装 载 。 测 试 完成 后 ， 将 regular_etl.sql 文 件 中 的 set hivevar:cur date 
= current_date(); 行 恢复 。 


10.6 ” 林 项 维度 


本 节 讨 论 杂 项 维度 。 简 单 地 资 ， 杂 项 维度 就 是 一 种 包含 的 数据 具有 
很 少 可 能 值 的 维度 。 事 务 型 商业 过 程 通 常 产 生 一 系列 混杂 的 、 低 基数 的 





标志 位 或 状态 信息 。 与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 ， 不 如 建立 
单独 的 将 不 同 维度 合并 到 一 起 的 杂项 维度 。 这 些 维度 ， 通 常 在 一 个 模式 
中 标记 为 事务 型 概要 维度 ， 一 般 不 需要 所 有 属性 可 能 值 的 笛 卡 尔 积 ， 但 
应 该 至 少 包 含 实际 发 生 在 源 数据 中 的 组 合 值 。 


例如 ， 在 销售 订单 中 ， 可 能 存在 有 很 多 离散 数据 (yes-no 这 种 开关 
类 型 的 值 )， 如 : 





verification ind (如 果 订 单 己 经 被 审核 ， 值 为 yes)〉。 

credit check flag (表示 此 订单 的 客户 信用 状态 是 否 己 经 被 检 
f. 

new_customer_ind《〈 如 果 这 是 新 客户 的 首 个 订单 ， 值 为 yes) 。 
web_order_flag〈 表 示 一 个 订单 是 在 线 上 订单 还 是 线 下 订单 ) 。 


类 数据 常 被 用 于 增强 销售 分 析 ， 其 特点 是 属性 可 能 很 多 但 每 种 属 
E 值 很 少 。 在 建 模 复 杂 的 操作 型 源 系 统 时 ， 经 常会 遭遇 大 量 五 花 
八 门 的 标志 或 状态 信息 ， 它 们 包含 小 范围 的 离散 值 。 处 理 这 些 较 低 基数 
的 标志 或 状态 位 可 以 采用 以 下 几 种 方法 。 


1. 忽略 这 些 标志 和 指标 


暂且 将 这 种 回避 问题 的 处 理 方式 也 算 作 方法 之 一 。 在 开发 ETL 系 统 
时 ， 如 果 它 们 是 微不足道 的 ，ETL 开 发 小 组 可 以 向 业务 用 户 询问 有 关 忽 
略 这 些 标志 的 必要 问题 ， 但 是 这 样 的 方案 通常 立即 束 补 否决 了 ， 因 为 有 
人 侦 尔 还 需要 它们 。 如 果 来 自 业 务 系 统 的 标志 或 状态 是 难以 理解 且 不 一 
致 的 ， 也 许 真 的 应 该 考虑 去 掉 它 们 。 


2. 保持 事实 表 行 中 的 标志 位 不 变 


还 以 销售 订单 为 例 ， 和 源 数 据 库 一 样 ， 我 们 可 以 在 事实 表 中 也 建立 
这 四 个 标志 位 字段 。 在 装载 事实 表 时 ， 除 了 订单 号 以 外 ， 同 时 装载 这 四 





























个 字段 的 数据 ， 这 些 字段 没有 对 应 的 维度 表 ， 而 是 作为 订单 的 属性 保留 
在 事实 表 中 。 


这 种 处 理 方法 简单 下 接 ， 闭 载 程序 不 需要 做 大 量 的 修改 ， 也 不 需要 
建立 相关 的 维度 表 。 但 是 一 般 我 们 不 希望 在 事实 表 中 存储 难以 识别 的 标 
志 位 ， 尤 其 是 当 每 个 标志 位 还 配 有 一 个 文字 描述 字段 时 。 不 要 在 事实 表 
行 中 存储 包含 大 量 字符 的 描述 符 ， 因 为 每 一 行 都 会 有 文字 描述 ， 它 们 可 
能 会 使 表 快 速 地 膨胀 。 在 行 中 保留 一 些 文本 标志 是 令 人 反感 的 ， 比 较 好 
的 做 法 是 分 离 出 单独 的 维度 表 保 存 这 些 标志 位 字段 的 数据 ， 它 们 的 数据 
量 很 小 ， 并 且 极 少 改变 。 事 实 表 通过 维度 表 的 代理 键 引用 这 些 标志 。 


3. 将 每 个 标志 位 放 入 其 目 己 的 维度 中 


例如 ， 为 销售 订单 的 四 个 标志 位 分 别 建立 四 个 对 应 的 维度 表 。 在 装 
载 事实 表 数 据 前 先 处理 这 四 个 维度 表 ， 必 要 时 生成 新 的 代理 键 ， 然 后 在 
事实 表 中 引用 这 些 代 理 键 。 这 种 方法 是 将 杂项 维度 当 作 普通 维度 来 处 
理 ， 多 数 情况 下 这 也 是 不 合适 的 。 


首先 ， 当 类 似 的 标志 或 状态 位 字段 比较 多 时 ， 需 要 建立 很 多 的 维度 
表 ， 其 次 事实 表 的 外 键 数 也 会 大 量 增 加 。 处 理 这 些 新 增 的 维度 表 和 外 键 
需要 大 量 修改 数据 装载 脚本 ， 还 会 增加 出 错 的 机 会 ， 同 时 会 给 ETL 的 开 
发 、 维 护 、 测 斌 过程 市 来 很 大 的 工作 量 。 最 后 ， 杂 项 维度 的 数据 有 目 己 
明显 的 特点 ， 即 属性 多 但 每 个 属性 的 值 少 ， 并 且 极 少 修改 ， 这 种 特点 决 
定 了 它 应 该 与 普通 维度 的 处 理 区 分 开 。 

作为 一 个 经 验 值 ， 如 果 外 键 的 数量 处 于 合理 的 范围 中 ， 即 不 超过 20 
个 ， 则 在 事实 表 中 增加 不 同 的 外 键 是 可 以 接受 的 。 但 是 ， 寿 外 键 列表 已 
经 很 长 ， 则 应 该 避免 将 更 多 的 外 键 加 入 到 事实 表 中 。 


4. 将 标志 位 字段 存储 到 订单 维度 中 





























可 以 将 标志 位 字段 添加 到 订单 维度 表 中 。 上 一 市 我 们 将 订单 维度 表 
作为 退化 维度 删除 了 ， 因 为 它 除 了 订单 号 ， 没 有 其 他 任何 属性 。 与 其 将 
订单 号 当成 是 退化 维度 ， 不 如 视 其 为 将 低 基 数 标 志 或 状态 作为 属性 的 普 
通 维 度 。 事 实 表 通过 引用 订单 维度 表 的 代理 键 ， 关 联 到 所 有 的 标志 位 信 
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尽管 该 方法 精确 地 表示 了 数据 关系 ， 但 依然 存在 前 面 讨 论 的 问题 。 
在 订单 维度 表 中 ， 每 条 业务 订单 都 会 存在 对 应 的 一 条 销售 订单 记录 ， 该 
维度 表 的 记录 数 会 膨胀 到 跟 事 实 表 一 样 多 ， 而 在 如 此 多 的 数据 中 ， 每 个 
标志 位 字段 都 存在 大 量 的 元 余 ， 需 要 占用 很 大 的 存储 空间 。 通 种 维度 表 
应 该 比 事实 表 小 得 多 。 


5. 使 用 杂项 维度 


处 理 这 些 标志 位 的 适当 普 换 方法 是 仔细 研究 它们 ， 并 将 它们 包装 为 
一 个 或 多 个 杂项 维度 。 杂 项 维度 中 放置 各 种 离散 的 标志 或 状态 数据 ， 尺 
管 为 每 个 标志 位 创建 专门 的 维度 表 会 非 第 容易 定位 这 些 标 志 人 信息， 但 这 
会 增加 系统 实现 的 复杂 度 。 此 外 ， 正 因为 杂项 维度 的 值 很 少 ， 也 不 会 频 
繁 使 用 它们 ， 所 以 不 建议 为 保证 单一 目的 分 配 存 储 空间 。 灯 项 维度 能 够 
合理 地 存放 离散 属性 值 ， 还 能 够 维持 其 他 主要 维度 的 存储 空间 。 在 维度 
建 模 领 域 ， 杂 项 维度 术语 主要 用 在 DW/BI 专 业 人 员 中 。 在 与 业务 用 户 讨 
论 时 ， 通 利 将 杂项 维度 称 为 事务 指示 器 或 事务 概要 维度 。 


杂项 维度 是 低 基 数 标志 和 指标 的 分 组 。 通 过 建立 杂项 维度 ， 可 以 将 
标志 和 指标 从 事实 表 中 移出 ， 并 将 它们 放 入 到 有 用 的 多 维 框架 中 。 


对 杂项 维度 数据 量 的 估算 也 会 影响 其 建 模 策略 。 如 果 某 个 简单 的 杂 
项 维度 包含 10 个 二 值 标 识 ， 例 如 ， 现 金 或 信用 卡 支 付 类 型 、 是 否 审核 、 
在 线 或 离线 、 本 国 或 海外 等 ， 则 最 多 将 包含 1024 (2300 行 。 假 设 由 于 
每 个 标志 都 与 其 他 标志 一 起 发 生 作 用 ， 在 这 种 情况 下 浏览 单一 维度 内 的 
标识 可 能 没什么 意义 。 但 是 ， 杂 项 维度 可 提供 所 有 标识 的 存储 ， 并 用 于 






































基于 这 些 标识 的 约束 和 报表 。 事 实 表 与 杂项 维度 之 间 存 在 一 个 单一 的 、 
小 型 的 代理 键 。 

另 一 方面 ， 如 果 具 有 高 度 非 关联 的 属性 ， 包 含 更 多 的 数量 值 ， 则 将 
它们 合并 为 单一 的 杂项 维度 是 不 合适 的 。 遗 憾 的 是 ， 是 否 使 用 统一 杂项 
维度 的 决定 并 不 完全 是 公式 化 的 ， 要 依据 具体 的 数据 范围 而 定 。 如 果 存 
在 5 个 标识 ， 每 个 仅 包 含 3 个 值 ， 则 单一 杂项 维度 是 这 些 属性 的 最 佳 选 
择 ， 因 为 维度 最 多 仪 有 243 (3^5) 行 。 但 是 如 果 5 个 没有 关联 的 标识 ， 
每 个 具有 100 个 可 能 值 ， 建 议 建 立 不 同 维度 ， 因 为 单一 杂项 维度 表 最 大 
可 能 存在 1 亿 (10045) 行 。 


关于 淋 项 维度 的 一 个 微妙 的 问题 是 ， 在 人 茶 项 维度 中 行 的 组 合 确定 并 
己 知 的 前 提 下 ， 是 应 该 事先 为 所 有 组 合 的 完全 笛 卡 尔 积 建立 行 ， 还 是 建 
并 杂项 维度 行 ， 只 用 于 保存 那些 在 源 系 统 中 出 现 的 组 合 情 况 的 数据 。 答 
案 要 看 大 概 有 多 少 可 能 的 组 合 ， 最 大 行 数 是 多 少 。 一 般 来 说 ， 理 论 上 组 
合 的 数量 较 小 ， 比 如 只 有 几 百 行 时 ， 可 以 预 效 载 所 有 组 合 的 数据 ， 而 如 
末 组 合 的 数量 大 ， 那 么 在 数据 获取 时 ， 当 遇 到 新 标志 或 指标 时 ， 再 建立 
杂项 维度 行 。 当 然 ， 如 果 源 数据 中 用 到 了 全 体 组 合 时 ， 那 别 无 选择 只 能 
预先 装载 好 全 部 杂项 维度 数据 。 


如 果 杂 项 维度 的 取 值 事先 并 不 知道 ， 只 有 在 获取 数据 时 才能 确定 ， 
那么 就 需要 在 处 理 业 务 系统 事务 表 时 ， 建 立新 观察 到 的 杂项 维度 行 。 这 
一 过 程 需 要 凤 集 杂 项 维度 属性 并 将 它们 与 已 经 存在 的 杂项 维度 行 比较 ， 
己 确 宋 该 行 是 人 否 已 经 存在 。 如 果 不 存 在 ， 将 组 建新 的 维度 行 ， 建 并 代理 
键 。 在 处 理事 务 表 过 程 中 适时 地 将 该 行 加 载 到 杂项 维度 中 。 

解释 了 杂项 维度 之 后 ， 将 它们 与 处 理 标 志 位 作为 订单 维度 属性 的 方 
法 进行 比较 。 如 希望 分 析 订 单 事实 的 审核 情况 ， 其 订单 属性 包含 “是 否 
审核 ”标志 位 ;， 如 果 使 用 杂项 维度 ， 维 度 表 中 只 会 有 很 少 的 记录 。 而 这 
些 属 性 如 果 被 存储 到 订单 维度 中 ， 针 对 事实 表 的 约束 将 会 是 一 个 巨大 的 
列表 ， 因 为 每 一 条 订单 记录 部 包含 “是 否 审核 标志。 在 与 事实 表 关 联 查 
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图 10-7 ”杂项 维度 





1. 新 增 销 售 订单 属性 杂项 维度 


给 现 有 的 数据 仓库 新 增 一 个 销售 订单 属性 杂项 维度 。 需 要 新 增 一 个 
名 为 sales_order_attribute_dim 的 杂项 维度 表 ， 该 表 包 括 四 个 yes-no 列 : 
verification_ind、credit_check_flag、new_customer_ind 和 
web order flag， 各 列 的 含义 已 经 在 本 节 开 头 说明 。 每 个 列 可 以 有 两 个 
可 能 值 中 的 一 个 ，Y 或 N， 因 此 sales_order_attribute_dim 表 最 多 有 
16 (24D. 行 。 我 们 假设 这 16 行 已 经 包含 了 所 有 可 能 的 组 合 ， 因 此 可 以 
预 装载 这 个 维度 ， 并 且 只 需 装 载 一 次 。 

注意 ， 如 果 知 道 某 种 组 合 是 不 可 能 出 现 的 ， 就 不 需要 装载 这 种 组 
合 。 执 行 下 面 的 脚本 修改 数据 库 模 式 。 这 个 脚本 做 了 四 项 工作 : 建立 














sales order attribute dimz&; 向 表 中 预 装载 全 部 16 种 可 能 的 数据 ， 给 销 
售 订 单 事实 表 添 加 杂项 维度 代理 键 字 段 ， 给 源 数 据 库 里 的 sales_order 表 
增加 对 应 的 四 个 属性 列 。 








use 


dw; 
-- 建立 杂项 维度 表 
create table 





sales order attribute dim ( 
sales order attribute sk int comment 


'sales order attribute SK', 
verification ind char 


(1) comment 


'verification index, y or n', 
credit check flag char 


(1) comment 


'credit check flag, y or n', 
new customer ind char 


(1) comment 


'new customer index, y or n', 
web order flag char 


(1) comment 


'web order flag, y or n', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 


clustered by 


(sales order attribute sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
-- 生成 杂项 维度 数据 


insert into 


sales order attribute dim 
values 


(1, 'y', 'n', 'n', 'n', 1,'1900-00-00', 
-- 共 插 入 16 条 记录 


-- 建立 杂项 维度 外 键 
alter table 











sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 


order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'2200-01-01'); 


'sales order attribute S 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity') 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into table 


sales order fact 
select 


order number, 
customer sk, 
product sk, 
null 


order date sk, 
request delivery date sk, 
order amount, 
order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 


-- 给 源 库 的 销售 订单 表 增加 对 应 的 属 


use 








HE 





source; 
alter table 


sales order 
add 


verification ind char 


(1) after 


product code 
, add 


credit check flag char 





verification ind char 


(1) comment 


'verification index, y or n', 
credit check flag char 


(1) comment 


'credit check flag, y or n', 
new customer ind char 


(1) comment 


'new customer index, y or n', 
web order flag char 


(1) comment 


'web order flag, y or n' 


dG 


和 所 有 维度 表 〈 除 日 期 相关 维度 ) 一 样 ， 为 了 处 理 可 能 的 SCD 情 
况 ， 订 单 属 性 杂项 维度 表 也 具有 版 本 号 、 生 效 日 期 、 过 期 日 期 等 列 。 


2. 重建 Sqgoop 作 业 





因为 源 数据 的 销售 订单 表 新 增 了 4 个 属性 列 ， 所 以 需要 在 增 量 抽取 


作业 中 增加 相应 的 列 。 


last value-'sqoop job --show myjob incremental import --meta-con 
jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep incremental.last.valu 
sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 

--create myjob incremental import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales order \ 

--columns "order number, customer number, product code, order da 
order quantity, request delivery date, verification ind, credit 


web order flag" 


iN 

--hive-import \ 

--hive-table rds.sales_order \ 
--incremental append \ 
--check-column order_number \ 
--last-value $last_value 


上 面 的 shell 脚 本 重建 Sqoop 增 量 数据 抽取 作业 。 注 意 --columns 参 数 
后 面 列 的 顺序 要 和 rds.sales_order 表 中 列 的 顺序 保持 一 致 。 


3. 修改 定期 疼 载 脚本 


由 于 有 了 一 个 新 的 维度 ， 必 须 修改 定期 装载 脚本 。 下 面 显示 了 修改 
后 的 regular_etl.sql 脚 本 文件 内 容 〔 只 列 出 修改 的 部 分 〉。 


- - 设置 变量 以 支持 事务 . 

ae 设置 scd 的 生效 时 间 和 过 半期 时 间 
- - 设置 cdc 的 上 限时 间 

-- 装载 customer 维 度 ... 

-- 重 载 pa 客户 维度 ... 











-- 装载 product 维 度 ... 
-- 装载 销售 订单 事实 表 ... 
-- 前 一 天 新 增 的 销售 订单 


insert into 

















sales order fact 
select 


a.order number, 

customer sk, 

product sk, 
g.sales order attribute sk 


e.order date sk, 
f.request delivery date sk, 
order amount, 
order quantity 
from 


rds.sales order a, 

customer dim c, 

product dim d, 

order date dim e, 

request delivery date dim f, 
sales order attribute dim g 


rds.cdc time h 
where 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.order date 
and to date 


(a.request delivery date) - f.request delivery date 


and a.verification ind - g.verification ind 


and a.credit check flag = g.credit check flag 


and a.new customer ind - g.new customer ind 


and a.web order flag - g.web order flag 


and 


a.entry date »- h.last load and 


a.entry date « h.current load ; 


-- 更 新 时 间 惟 表 的 last_1Load 字 段 ,,， 


注意 ， 杂 项 属性 维度 数据 已 经 预 装 载 ， 所 以 在 定期 装载 脚本 中 只 需 
要 修改 处 理事 实 表 的 部 分 。 源 数据 中 有 四 个 属性 列 ， 而 事实 表 中 只 对 应 
一 列 ， 因 此 需要 使 用 四 列 关 联 条 件 的 组 合 确定 杂项 维度 表 的 代理 键 值 ， 
并 装载 到 事实 表 中 ， 正 如 上 面 代码 中 粗 体 部 分 所 示 。 


4. 测试 修改 后 的 定期 装载 


C1) 使 用 下 面 的 脚本 添加 8 个 销售 订单 。 





USe 


source; 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 


1-0; 


set 


Qstart date := unix timestamp('2016-07-31'); 
set 


Qend date :- unix timestamp('2016-08-01'); 


set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 


(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


(1, ge 1, jo at pn lave Pu 
Qorder date, '2016-08-05', Qorder date, Qamount, Qquantity); 


-- 一 共 添加 各 种 属性 组 合 的 8 条 记录 





insert into 


sales order 
select 


null, 
customer number, 
product code, 
verification ind, 
credit check flag, 
new customer ind, 
web order flag, 
order date, 
request delivery date, 
entry date, 
order amount, 
order quantity 

from 


temp sales order data t1 
order by 


ti.order date; 
commit 


(20 执行 定期 装载 。 


./regular etl.sh 


(3) 验证 结果 。 
可 以 使 用 下 面 的 分 析 性 查询 确认 装载 是 否 正确 。 该 查询 分 析出 检查 
了 信用 状态 的 新 用 户 所 占 的 比例 。 


select concat(round 


(checked / (checked + not checked) * 100),' 96 ') 
from (select 


sum(case when 


credit check flag-'y' then 


1 else 


© end 


) checked, 
sum(case when 


credit check flag-'n' then 
1 else 
© end 


) not checked 
from 


dw.sales order fact a, dw.sales order attribute dim b 
where 


new customer ind - 'y' 
and 


a.sales order attribute sk - b.sales order attribute sk) t; 


sum(case when...) 是 SQL 中 一 种 常用 的 行 转 列 方法 ， 用 于 列 数 固 定 的 
场景 。 在 我 们 的 测试 数据 中 ， 以 上 查询 语句 的 返回 值 为 75%。 注 意 ， 查 
询 中 销售 订单 事实 表 与 杂项 维度 表 使 用 的 是 内 连接 ， 因 此 只 会 匹配 新 增 
的 8 条 记录 ， 而 查询 结果 比例 的 分 母 只 能 出 自 这 8 条 记录 。 





10.7 维度 合并 


在 多 维 数 据 仓 库 建 模 时 ， 如 果 维 度 属 性 中 的 两 个 组 存在 多 对 多 关系 
时 ， 应 该 将 它们 建 模 为 不 同 的 维度 ， 并 在 事实 表 中 构建 针对 这 些 维度 的 
不 同 外 键 。 另 一 种 处 理 多 对 多 关系 的 方法 是 ， 使 用 桥接 表 ， 将 一 个 多 对 
多 关系 转化 为 两 个 一 对 多 关系 。 我 们 在 10.4 节 中 讨论 的 展开 树 也 是 一 种 
典型 的 桥接 表 。 事 实 表 通过 引用 桥接 表 的 一 个 代理 键 ， 同 时 关联 到 多 个 
维度 值 。 这 样 做 的 目的 是 消除 数据 元 余 ， 保 证 数据 一 致 性 。 多 对 多 关系 
的 常见 示例 包括 : 每 个 学 生 登 记 了 许多 课程 ， 每 个 课程 有 许多 学 生 ; 一 
名 医生 有 许多 患者 ， 每 个 患者 有 许多 医生 ; 一 个 产品 或 服务 属于 多 个 类 
别 ， 每 个 类 别 包含 多 个 产品 或 服务 等 。 从 结构 上 来 说 ， 创 建 多 对 多 维度 
关系 的 方式 类 似 于 在 关系 数据 模型 中 创建 多 对 多 关系 。 


然而 ， 有 时 会 遇 到 一 些 情况 ， 更 适合 将 两 个 维度 合并 到 单一 维度 
中 ， 而 不 是 在 事实 表 中 引用 两 个 不 同 维度 的 外 键 ， 或 使 用 桥接 表 。 例 
如 ， 在 一 个 飞行 服务 数据 分 析 系 统 中 ， 业 务 用 户 和 希望 分 析 乘 客 购 买 机 票 
的 服务 级 别 。 此 外 ， 用 户 还 希望 方便 地 按照 是 否 发 生 服 务 的 升级 或 降级 
情况 过 滤 并 构建 报表 。 最 初 的 想法 可 能 是 建立 两 个 角色 扮演 维度 ， 一 个 
表示 最 初 购 买 的 机 票 服务 等 级 ， 另 外 一 个 表示 实际 乘机 时 的 服务 级 别 。 
可 能 还 希望 建立 第 三 个 维度 表示 升降 级 情况 ， 否 则 BI 应 用 需要 包括 用 于 
区 分 众多 升降 级 情况 的 逻辑 ， 例 如 经 济 舱 升 级 到 商务 舱 ， 经 济 舱 升 级 到 
头等 舱 ， 商 务 舱 升级 到 头等 舱 等。 但 是 ， 面 对 这 个 特殊 场景 ， 在 维度 表 
中 只 有 用 于 区 分 头等 舱 、 商 务 舱 、 经 济 舱 的 三 行 记录 。 同 样 ， 升 降级 标 
准 维度 表 也 仪 包 含 三 行 ， 分 别 对 应 升级 、 降 级 、 无 变化 。 因 为 维度 的 基 
数 太 小 ， 而 且 不 会 进行 更 新 ， 所 以 可 以 选择 将 这 些 维度 合并 成 单一 服务 
级 别 变 动 维度 ， 如 表 10-3 所 示 。 


表 10-3 ”服务 级 别 变动 维度 



























































机 票 升降 级 主键 最 初 购买 级 别 实际 乘坐 级 别 服务 等 级 变动 标识 
DL 无 变化 
































不 同 维度 的 笛 卡 尔 积 将 产生 9 行 的 维度 表 。 在 合并 维度 中 还 可 以 包 
含 描述 购买 服务 级 别 和 乘坐 服务 级 别 之 间 的 关系 ， 例 如 表 中 的 服务 等 级 
变动 标识 。 应 该 将 此 类 服务 级 别 变动 维度 当成 杂项 维度 。 在 此 案例 研 完 
中 ， 属 性 是 紧密 关联 的 。 其 他 的 航空 事实 表 ， 例 如 ， 有 效 座位 或 机 票 购 
买 ， 不 可 避免 地 需要 引用 包含 3 行 的 一 致 性 机 票 等 级 维度 表 。 

还 有 一 种 合并 维度 的 情况 ， 就 是 本 来 属性 相同 的 维度 ， 因 为 条 种 原 
因 被 设计 成 重复 的 维度 属性 。 例 如 ， 在 销售 订单 示例 中 ， 随 着 数据 仓库 
中 维度 的 增加 ， 我 们 会 及 现 有 些 通用 的 数据 存在 于 多 个 维度 中 。 例 如 ， 
客户 维度 的 客户 地 址 相关 信息 、 送 货 地 址 相关 信息 里 都 有 邮编 、 城 市 和 
省 份 。 下 面 说 明 如 何 把 客户 维度 里 的 两 个 邮编 相关 信息 合并 到 一 个 新 的 
维度 中 。 


1. 修改 数据 仓库 模式 


为 了 合并 维度 ， 需 要 改变 数据 仓库 模式 。 图 10-8 显 示 了 修改 后 的 模 
式 。 新 增 了 一 个 zip_code_dim 邮 编 信 息 维度 表 ，sales_order_fact 事 实 表 
的 结构 也 做 了 相应 的 修改 。 注 意图 中 只 显示 了 与 邮编 维度 相关 的 表 。 

zip_code_dim 维 度 表 与 销售 订单 事实 表 相 关联 。 这 个 关系 蔡 换 了 事 
实 表 与 客户 维度 的 关系 。sales_order_fact 表 需要 两 个 关系 ， 一 个 关联 到 
客户 地 址 邮编 ， 男 一 个 关联 到 送 货 地 址 邮编 ， 相 应 地 增加 了 两 个 外 键 字 

















段 。 再 次 强调 ， 这 里 所 说 的 外 键 是 逻辑 上 的 ，Hive 没 有 物理 外 键 约束 。 
下 面 说 明 用 于 修改 数据 仓库 模式 的 脚本 。 


create table 


zip code dim ( 
zip code sk int 
zip code int 
city varchar 


(30), 
state varchar 


(2), 
version int 


effective date date 


expiry date date 


) 
clustered by 


(zip code sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 





date dim 





date sk &pi» «M» 
ste 





month 
month_name 
quarter 

year 

一 起 d 


O 














E. 


sales order fact 














































zip code dim order number product dim 
E customer si = : 
zip code s Spi? < product sk Spi> <> 
zip_code Ie product code 
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x ^x rye] s&8les order sttribute sk 
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es OMIM order amount 
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执行 上 面 的 语句 创建 邮编 维度 表 。 该 维度 表 有 邮编 、 城 市 、 省 份 三 
个 业务 属性 ， 和 其 他 维度 表 一 样 ， 使 用 ORC 存 储 类 型 。 


insert into 


zip code dim 


select row number() 


over (order by 


ti.zip code), 
customer zip code, 
customer city, 
customer state, 
1,'1900-01-01','2200-01-01' 
from 


(select distinct 


customer zip code, customer city, customer state 
from 


customer dim 
where 


customer zip code is not null 


union 


select distinct 


shipping zip code, shipping city, shipping state 
from 


customer dim 
where 


shipping zip code is not null 


) t1; 


执行 上 面 的 语句 初始 装载 邮编 相关 数据 。 初 始 数据 是 从 客户 维度 表 
中 来 的 ， 这 只 是 为 了 演示 数据 装载 的 过 程 。 客 户 的 邮编 信息 很 可 能 禾 六 
不 到 所 有 邮编 ， 所 以 更 好 的 方法 是 装载 一 个 完整 的 邮编 信息 表 。 由 于 客 
户 地 址 和 送 货 地 址 可 能 存在 交叉 的 情况 ， 因 此 使 用 union 联 合 两 个 碍 
询 。 注 意 这 里 不 能 使 用 union all， 因 为 需要 去 除 重 复 的 数据 。 送 货 地 址 
的 三 个 字段 是 在 10.1 节 后 加 的 ， 在 此 之 前 数据 的 送 货 地 址 为 空 ， 邮 编 维 
度 表 中 不 能 含有 NULL 值 ， 所 以 要 加 上 where shipping. zip code is not null 
过 小 条 件 去 除 邮编 信息 为 NULL 的 数据 行 。 

















create view 


customer zip code dim 
(customer zip code sk, customer zip code, customer city, 
customer state, version, effective date, expiry date) as 


select 


zip code sk, zip code, city, state 


, 


version, effective date, expiry date 
from 


zip code dim; 


create view 


shipping zip code dim 
(shipping zip code sk, shipping zip code, shipping city, 
shipping state, version, effective date, expiry date) as 


select 


zip code sk, zip code, city, state 


[4 
version, effective date, expiry date 
from 


zip code dim; 





上 面 的 语句 基于 邮编 维度 表 创 建 客 户 邮 编 和 送 贷 邮编 视图 ， 分 别 用 
作 两 个 地 理 信息 的 角色 扮演 维度 。 


alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
customer zip code sk int comment 'customer zip code SK' 


shipping zip code sk int comment 'shipping zip code SK' 


product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


‘order quantity!) 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


以 上 语句 先 将 销售 订单 表 改 名 以 保存 现 有 数据 ， 然 后 新 建 一 个 销售 
订单 事实 表 ， 增 加 客户 邮编 代理 键 和 送 货 邮编 代理 键 ， 引 用 两 个 邮编 信 
Ef ELD AEE 


insert into 








sales_order_fact 
select 


ti.order number, 
ti.customer sk, 
t2.customer zip code sk 





t3.shipping zip code sk 





ti.product sk, 
ti1.sales order attribute sk, 
ti.order date sk, 
ti.request delivery date sk, 
ti.order amount, 
ti.order quantity 

from 


sales order fact old t1 
left join 


(select 


a.order number order number, 
c.customer zip code sk customer zip code sk 





from 


sales order fact old a, 
customer dim b, 
customer zip code dim c 

where 





a.customer sk - b.customer sk 
and 


b.customer zip code - c.customer zip code) t2 
on 


ti.order number = t2.0rder number 
left join 


(select 


a.order number order number, 
c.shipping zip code sk shipping zip code sk 
from 





sales order fact old a, 
customer dim b, 
shipping zip code dim c 

where 





a.customer sk - b.customer sk 
and 


b.shipping zip code = c.shipping zip code) t3 
on 


ti.order number = t3.order number; 


上 面 这 条 语句 有 些 复杂 。 它 是 把 数据 备份 表 sales_order_fact_old 中 
的 数据 装载 回 销售 订单 事实 表 ， 同 时 需要 关联 两 个 邮编 角色 维度 视图 ， 
查询 出 两 个 代理 键 ， 装 载 到 事实 表 中 。 注 意 老 的 事实 表 与 新 的 邮编 维度 
表 是 通过 客户 维度 表 关 联 起 来 的 ， 所 以 在 子 查 询 中 需要 三 表 连 接 ， 然 后 
用 两 个 左 外 连接 查询 出 所 有 原 事实 表 数 据 ， 装 载 到 新 的 增加 了 邮编 维度 
代理 键 的 事实 表 中 。 











alter table 


customer dim rename to 


customer dim old; 
create table 


customer dim 
(customer sk int comment 


1 Li 
SK', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 
shipping address varchar 


(50) comment 


'shipping address', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


‘expiry date') 
clustered by 


(customer_sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


customer dim 
select 


customer sk, 
customer number, 
customer name, 
customer street address, 
shipping address, 
version, 
effective date, 


expiry date 
from 


customer dim old; 
drop table 


customer dim old; 


- 修改 pa_customer_dim 表 ， 同 样 将 邮编 相关 字段 删除 








以 上 语句 在 客户 维度 表 上 删除 客户 和 送 货 邮编 及 其 他 们 的 城市 和 省 
份 列 ， 因 为 是 ORC 表 ， 所 以 需要 重新 组 织 数据 。 使 用 类 似 的 语句 修改 
PA 维 度 子 集 表 ， 代 码 从 略 。 


2. HES re HH Fee AN Ha AS 


定期 装载 脚本 有 三 个 地 方 的 修改 : 
(1) 删除 客户 维度 装载 里 所 有 邮编 信息 相关 的 列 ， 因 为 客户 维度 
里 不 再 有 客户 邮编 和 送 货 邮编 相关 信息 。 
(2) 在 事实 表 中 引用 客户 邮编 视图 和 送 货 邮 编 视图 中 的 代理 键 。 
(3) 修改 pa_customer_dim 装 载 ， 因 为 需要 从 销售 订单 事实 表 的 
customer_zip_code_sk 获 取 客 户 邮 编 。 
修改 后 的 regular_etl.sql 脚 本 如 下 所 示 (只 列 出 修改 的 部 分 〉。 
- 设置 环境 与 时 间 窗 口 ，.， 


e 装载 customer 维 度 
只 需要 注意 去 掉 邮 编 信 息 的 6 个 字段 ， 别 的 逻辑 没 变 

















-- 装载 product 维 度 ... 











- -装载 销售 订单 事实 表 
- -前 一 天 新 增 的 销售 订单 


insert into 








sales order fact 








select 
a.order number, 
c.customer sk, 
i.customer zip code sk, 
j.shipping zip code sk, 
d.product sk, 
g.sales order attribute sk, 
e.order date sk, 
f.request delivery date sk, 


order amount, 
order quantity 
from 


rds.sales order a, 

customer dim c, 

product dim d, 

order date dim e, 

request delivery date dim f, 
sales order attribute dim g, 
customer zip code dim i 


shipping zip code dim j 


rds.customer k 


rds.cdc time 1 
where 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 


and a.customer number - k.customer number 


and k.customer zip code - i.customer zip code 


and a.order date >= i.effective date 


and a.order date «- i.expiry date 


and k.shipping zip code - j.shipping zip code 


and a.order date »- j.effective date 


and a.order date «- j.expiry date 


and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.order date 
and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date « l.current load ; 
-- ER pa 客户 维度 


truncate table 


pa_customer_dim; 
insert into 


pa_customer_dim 
select distinct 


a * 
from 


customer dim a, 
sales order fact b 


customer zip code dim c 





where 


Cc.customer state = 'pa' 
and 


b.customer zip code sk - c.customer zip code sk 
and 


a.customer sk - b.customer sk; 


-- 更 新 时 间 惟 表 的 1ast_1oad 字 段 


上 面 的 脚本 需要 注意 两 个 地 方 。 闭 载 事 实 表 数据 时 ， 除 了 关联 两 个 
邮编 维度 视图 外 ， 还 要 关联 过 渡 区 的 rds.customer 表 。 这 是 因为 要 取得 邮 
编 维 度 代理 键 ， 必 须 连 接 邮 编 代码 字段 ， 而 邮编 代码 已 经 从 客户 维度 表 
中 删除 ， 只 有 在 源 数 据 的 客户 表 中 保留 。 第 二 个 改变 是 PA 子 维度 的 装 
载 。 州 代码 已 经 从 客户 维度 表 删 除 ， 被 放 到 了 新 的 邮编 维度 表 中 ， 而 客 
户 维度 和 邮编 维度 并 没有 直接 关系 ， 它 们 是 通过 事实 表 的 客户 代理 键 和 
邮编 代理 键 产生 联系 的 ， 因 此 必须 关联 事实 表 、 客 户 维度 表 、 邮 编 维度 
表 三 个 表 才 能 取出 PA 子 维度 数据 。 这 也 就 是 把 PA 子 维度 的 装载 放 到 了 
事实 表 装 载 之 后 的 原因 。 


3. 测试 修改 后 的 定期 装载 











按照 以 下 步 缀 测试 修改 后 的 定期 闪 载 脚本 。 
(1) 对 源 数据 的 客户 邮编 相关 信息 做 一 些 修改 。 


(2) 装载 新 的 客户 数据 前 ， 从 DW 库 查 询 最 后 的 客户 和 送 货 邮编 ， 
后 面 可 以 用 改变 后 的 信息 和 此 查询 的 输出 作对 比 。 


(3) 新 增 销 售 订 单 源 数 据 。 
(4) 修改 定期 装载 执行 的 时 间 窗 口 。 
(5) 执行 定期 装载 。 





(6) 查询 客户 维度 表 、 销 售 订单 事实 表 和 PA 子 维度 表 ， 确 认 数 据 
己 经 正确 装载 。 


10.8 分 段 维度 





在 客户 维度 中 ， 最 具有 分 析 价 值 的 属性 就 是 各 种 分 类 ， 这 些 属性 的 
变化 范围 比较 大 。 对 茶 个 个 体 客户 来 次， 可 能 的 分 类 属性 包括 : 性 别 、 
和 年龄、 民族、 职业、 收入 和 状态 ， 例 如 ， 新 客户 、 活 跃 客户 、 不 活跃 客 
户 、 已 流失 客户 等 。 在 这 些 分 类 属性 中 ， 有 一 些 能 够 定义 成 包含 连续 值 
的 分 段 ， 例 如 年 龄 和 收入 这 种 数值 型 的 属性 ， 就 可 以 分 成 连续 的 数值 区 
间 ， 而 像 状 态 这 种 描述 性 的 属性 ， 可 能 需要 用 户 根据 目 己 的 实际 业务 仔 
细 定 义 ， 通 党 定义 的 根据 是 某 种 可 度量 的 数值 。 

组 织 还 可 能 使 用 为 其 客户 打分 的 方法 刻画 客户 行为 。 分 段 维度 模型 
通常 以 不 同方 式 按照 积分 将 客 己 分类， 例如， 基于 他 们 的 购买 行为 、 文 
付 行为 、 流 失 走 向 等 。 每 个 客户 用 所 得 的 分 数 标记 。 

一 个 肖 用 的 客户 评分 及 分 析 系 统 是 考察 客户 行为 的 相关 度 (R) 、 
WE CF) 和 强度 OD ， 该 方法 被 称 为 RFT 方 法 。 有 时 将 强度 蔡 换 为 消 
RE M) ， 因 此 也 被 称 为 RFM 度 量 。 相 关 度 是 指 客户 上 次 购买 或 访问 
网 站 距 现 在 的 天 数 。 频 繁 度 是 指 一 段 时 间 内 容 户 购买 或 访问 网 站 的 次 
数 ， 通 闸 是 指 过 去 一 年 的 情况 。 强 度 是 指 客户 在 某 一 固定 时 间 周 期 中 消 
费 的 总 金额 。 在 处 理 大 型 客户 数据 时 ， 某 个 客户 的 行为 可 以 按照 如 图 
10-9 所 示 的 RFI 多 维 数据 仓库 建 模 。 在 此 图 中 ， 每 个 维度 形成 一 条 数 
轴 ， 某 个 轴 的 积分 度量 值 从 1 一 5， 代 表 茶 个 分 组 的 实际 值 ， 三 条 数 轴 组 
合 构成 客户 积 分 立方 体 ， 每 个 客户 的 积分 都 在 这 个 立方 体 之 中 。 
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图 10-9 RFI 





定义 有 意义 的 分 组 至 关 重 要 。 应 该 由 业务 人 员 和 数据 仓库 开发 团队 
共同 定义 可 能 会 利用 的 行为 标识 ， 更 复杂 的 场景 可 能 包含 信用 行为 和 回 
报 情况 ， 例 如 定义 如 下 8 个 客户 标识 : 


e 
OQumuotUus-. 








: 活跃 客 己 ， 信 誉 展 好 ， 产 品 回报 多 。 
: 活跃 客户 ， 信 誉 良好 ， 产 品 回报 一 般 。 
: 最 近 的 新 客户 ， 疝 未 建立 信誉 等 级 。 
: 偶尔 出 现 的 客户 ， 信 誉 展 好 。 

: 偶尔 出 现 的 客户 ， 信 誉 不 好 。 

: DARTS, wile ie I o 

: REDER, JUPE YER AUS. 

e H: 





其 他 客户 。 


至 此 可 以 考察 客户 时 间 序 列 数据 ， 并 将 某 个 客户 关联 到 报表 期 间 的 
最 近 分 类 中 。 例 如 ， 某 个 客户 在 最 近 10 个 考察 期 间 的 情况 可 以 表示 为 : 
CCCDDAAABB。 这 一 行为 时 间 序 列 标记 来 自 于 固定 周期 度量 过 程 ， 观 
察 值 是 文本 类 型 的 ， 不 能 计算 或 求 平 均值 ， 但 是 它们 可 以 被 查询 。 例 
如 ， 可 以 发 现在 以 前 的 第 5 个 、 第 4 个 或 第 3 个 周期 中 获得 A 日 在 第 2 个 或 














第 1 个 周期 中 获得 B 的 所 有 客户 。 通 过 这 样 的 进展 分 析 还 可 以 发 现 那 些 可 
能 失去 的 有 价值 的 客户 ， 进 而 用 于 提高 产品 回报 率 。 

行为 标记 可 能 不 会 被 当成 普通 事实 存储 ， 因 为 它 虽 然 由 事实 表 的 度 
量 所 定义 ， 但 其 本 身 不 是 度量 值 。 行 为 标记 的 主要 作用 在 于 为 前 面 描述 
的 例子 制定 复杂 的 查询 模式 。 推 荐 的 处 理 行为 标记 的 方法 是 为 客户 维度 
建立 分 段 属性 的 时 间 序 列 。 这 样 BI 接 口 比较 简单 ， 因 为 列 都 在 同一 个 表 
中 ， 人 性 能 也 较 好 ， 因 此 可 以 对 它们 建立 时 间 惟 索引 。 除 了 为 每 个 行为 标 
记 时 间 周 期 建立 不 同 的 列 ， 建 立 单一 的 包含 多 个 连续 行为 标记 的 连接 字 
符 串 ， 也 是 较 好 的 一 种 方法 ， 例 如 ，CCCDDAAABB。 该 列 支 持 通 配 符 
模糊 搜索 模式 ， 例 如 ，“D 后 紧 跟着 B” 可 以 简单 实现 为 “where flag like 
'%DB%'”。 

下 面 以 销售 订单 为 例 ， 说 明 分 段 维 度 的 实现 技术 。 分 段 维 度 包 含 连 
续 的 分 段 度 量 值 。 例 如 ,年 度 销售 订单 分 段 维 度 可 能 包含 有 叫 
做 “ 低 * 中 “高 ”的 三 个 档次 ， 各 档 定 义 分 别 为 消费 额 在 0.01 到 3000、 
3000.01 到 6000.00、6000.01 到 99999999.99 区 间 。 如 果 一 个 客户 的 年 度 销 
售 订 单 金额 累计 为 1000， 则 被 归 为 “ 低 ” 档 。 分 段 维度 可 以 存储 多 个 分 段 
集合 。 例 如 ， 可 能 有 一 个 用 于 促销 分 析 的 分 段 集 合 ， 另 一 个 用 于 市 场 细 
分 ， 可 能 还 有 一 个 用 于 销售 区 域 计 划 。 分 段 一 般 由 用 户 定 义 ， 而 且 很 少 
能 从 源 事务 数据 直接 获得 。 


1. 年 度 销 售 订 单 星 型 模式 



































为 了 实现 年 度 订 单 分 段 维度 ， 我 们 需要 两 个 新 的 星 型 模式 ， 如 图 
10-10 所 示 。 











customer dim year dim annual order segment dim 


customer sk pi «XM» o| year sk <pil segment sk <pi> «M» 
customer number ~ | year © segment name 

customer name 

customer street address 
shipping address 
version 

effective date 

expiry date 








band name 
~ |band start amount 
~ | band end amount 
version 
effective date 
expiry date 





























O< annual sales order fact /| annual customer segment fact 










customer sk «fil» 
year sk «fi2» 
annual order amount 


segment sk «fil» 
customer sk <fi2> 





year sk <fi3> 











图 10-10 ”年度 销售 额 分 段 维度 


第 一 个 星 型 模式 由 annual_sales_order_fact 事 实 表 、customer_dim 维 
度 表 和 year_dim 维 度 表 构成 。 年 维度 是 新 建 的 维度 表 ， 是 日 期 维度 的 子 
集 。 年 度 销售 额 事实 表 存 储 客户 一 年 的 消费 总 额 ， 数 据 从 现 有 的 销售 订 
单 事 实 表 汇 总 而 来 。 第 二 个 星 型 模式 由 annual_customer_segment_fact 事 
实 表 、annual_order_segement_dim 维 度 表 、customer_dim 维 度 表 和 
year_dim 维 度 表 构成 。 客 户 年 度 分 段 事实 表 中 没有 度量 ， 只 有 来 自 三 个 
相关 维度 表 的 代理 键 ， 因 此 它 是 一 个 无 事实 的 事实 表 ， 存 储 的 数据 实际 
上 就 是 前 面 所 说 的 行为 标记 时 间 序 列 。11.4 节 将 详细 讨论 无 事实 的 事实 
表 技 术 。 年 度 订 单 分 段 维度 表 用 于 存储 分 段 的 定义 ， 在 本 例 中 ， 它 只 与 
年 度 分 段 事 实 表 有 关系 。 


如 果 多 个 分 段 的 属性 相同 ， 可 以 将 它们 存储 到 单一 维度 表 中 ， 因 为 
分 段 通 向 都 有 很 小 的 基数 。 本 例 中 annual order segment. dimz ff fit 
了 “project* 和 “grid” 两 种 分 段 集 合 ， 它 们 都 是 按照 客户 的 年 度 销售 订单 金 
额 将 其 分 类 。 分 段 维度 按 消费 金额 的 定义 如 表 10-4 所 示 ，project 分 六 
段 ，grid 分 三 段 。 




















表 10-4 客户 年 度 消 费 分 段 维度 定义 


























分 段 类 别 分 段 名 称 开始 值 结束 值 

Project 0.01 2500.00 

Project 2500.01 3000.00 

Project mid-low 3000.01 4000.00 

Project mid 4000.00 5500.00 

Project mid-high 5500.01 6500.00 

Project top 6500.01 99999999.99 

Grid low 0.01 3000.00 

Grid 
Grid 


每 一 分 段 有 一 个 开始 值 和 一 个 结束 值 。 分 段 的 粒度 就 是 本 段 和 下 段 
之 间 的 间 际 。 料 度 必 须 是 度量 的 最 小 可 能 值 ， 在 销售 订单 示例 中 ， 人 金额 
的 最 小 值 是 0.01。 最 后 一 个 分 段 的 结束 值 是 销售 订单 金额 可 能 的 最 大 
值 。 下 面 的 脚本 用 于 建立 分 段 维度 数据 仓库 模式 。 


USe 











dw; 
create table 


annual order segment dim ( 
segment sk int 


segment name varchar 


(30), 
band name varchar 


(50), 
band start amount decimal 





(1, 'project', 'bottom', 0.01, 2500.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(2, 'project', 'low', 2500.01, 3000.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(3, 'project', 'mid-low', 3000.01, 4000.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(4, 'project', 'mid', 4000.01, 5500.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(5, 'project', “mid high', 5500.01, 6500.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(6, 'project', 'top', 6500.01, 99999999.99, 
1, ' 1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(7, 'grid', 'low', 0.01, 3000, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual_order_segment_dim 
values 


(8, 'grid', 'med', 3000.01, 6000.00, 
1, ' 1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(9, 'grid', 'high', 6000.01, 99999999.99, 
1, '1900-01-01', '2200-01-01'); 


create table 





year sk int 


上 面 的 语句 新 建 四 个 表 ， 包 括 年 份 维度 表 、 分 段 维 度 表 、 年 度 销售 
事实 表 和 年 度 客 户 消费 分 段 事 实 表 。 在 这 四 个 表 中 ， 只 有 分 段 维度 表 采 
用 ORC 文 件 格 式 ， 因 此 使 用 insert into...values 向 该 表 语 句 插入 9 条 分 段 定 
义 数据 ， 并 且 该 表 需 要 SCD 处 理 。 其 他 三 个 表 没 有 行 级 更 新 的 需求 ， 所 
以 使 用 Hive 默 认 的 文本 文件 格式 。 











2. 初始 装载 


执行 下 面 的 脚本 初始 装载 分 段 相 关 数 据 。 


use 


dw; 


insert into 


year dim 
select row number() 


over (order by 


t1.year 


), year 


from 


(select distinct year year from 


order date dim) t1; 


insert into 


annual sales order fact 
select 


a.customer sk, 
year sk, 
sum 


(order amount) 
from 


sales order fact a, 
year dim c, 
order date dim d 
where 


a.order date sk - d.order date sk 
and 


c.year 


- d.year 


and 


d.year 


« 2017 
group by 


a.customer sk, c.year sk; 


insert into 


annual customer segment fact 
select 


d.segment sk, 
a.customer sk, 
a.year sk 
from 


annual sales order fact a, 
annual order segment dim d 
where 


annual order amount »- band start amount 


annual order amount «- band end amount; 


初始 装载 脚本 将 订单 日 期 角色 扮演 维度 表 (date_dim 表 的 一 个 视 
RD 里 的 去 重 年 份 数据 导入 年 份 维度 表 ， 将 销售 订单 事实 表 中 按 年 客户 
和 分 组 求 和 的 汇总 金额 数据 导入 年 度 销售 事实 表 。 因 为 装载 过 程 不 能 * 
入 当年 的 数据 ， 所 以 使 用 year < 2017 过 滤 条 件 作 为 演示 。 这 里 是 按 客户 
代理 键 customer_sk 分 组 求 和 来 判断 分 段 ， 实 际 情况 可 能 是 以 
customer_number 进 行 分 组 的 ， 因 为 无 论 客户 的 SCD 属 性 如 何 变化 ， 一 般 
还 是 认为 是 一 个 客户 。 将 年 度 销 售 事实 表 与 分 段 维度 表 关联 ， 把 年 份 、 
客户 和 分 段 三 个 维度 的 代理 键 插 入 年 度 客 户 消费 分 段 事实 表 。 注 意 ， 数 
据 装 载 过 程 中 并 没有 引用 客户 维度 表 ， 因 为 客户 代理 键 可 以 直接 从 销售 
订单 事实 表 得 到 。 分 段 定 义 中 ， 每 个 分 段 结束 值 与 下 一 分 段 的 开始 值 是 
连续 的 ， 并 且 分 段 之 间 不 存在 数据 重 登 ， 所 以 装载 分 段 事实 表 时 ， 订 单 
金额 判断 条 件 两 端 都 使 用 闭 区 间 。 


执行 初始 装载 脚本 后 ， 使 用 下 面 的 语句 查询 客户 分 段 事实 表 ， 确 认 
装载 的 数据 是 正确 的 。 


select 





























a.customer sk csk, 
a.year sk ysk, 
annual order amount amt, 
segment name sn, 
band name bn 
from 


annual customer segment fact a, 
annual order segment dim b, 
year dim c, 


annual sales order fact d 
where 


a.segment sk = b.segment sk 
and 


a.year sk - c.year sk 
and 


a.customer sk - d.customer sk 
and 


a.year sk - d.year sk 
cluster by 


csk, ysk, sn, bn; 


3. 定期 装载 


除了 无 须 装 载 年 份 表 以 外 ， 定 期 装载 与 初始 装载 关 似 。 年 度 销 售 事 
实 表 里 的 数据 被 导入 分 段 事 实 表 。 每 年 调度 执行 下 面 的 定期 装载 脚本 ， 
此 脚本 装载 前 一 年 的 销售 数据 。 


use 








dw; 


insert into 


annual sales order fact 





group by 


a.customer sk, c.year sk; 


insert into 


annual customer segment fact 
select 


d.segment sk, 
a.customer sk, 
c.year sk 
from 


annual sales order fact a, 

year dim c, 

annual order segment dim d 
where 


a.year sk - c.year sk 
and c.year - year(current date) - 1 


and 


annual order amount »- band start amount 
and 


annual order amount «- band end amount; 


10.9 2 


(1) 给 ORC 存 储 格式 的 表 增 加 列 时 ， 不 能 直接 使 用 alter ” tablei& 
句 ， 只 有 通过 新 建 表 并 重新 组 织 数据 的 方式 才能 正常 执行 。 

(2) 修改 数据 仓库 模式 时 ， 要 注意 空 值 的 处 理 ， 必 要 时 使 用 <=> 符 
SESS. 

(3) 子 维 度 通 常 有 包含 属性 子 集 的 子 维度 和 包含 行 子 集 的 子 维度 
两 种 。 常 用 视图 实现 子 维度 。 

(4) 单个 物理 维度 可 以 被 事实 表 多 次 引用 ， 每 个 引用 连接 逻辑 上 
存在 差异 的 角色 扮演 维度 。 视 图 和 表 别 名 是 实现 角色 扮演 维度 的 两 种 各 
用 方法 。 

(5) 处 理 层次 维度 时 ， 经 常 使 用 grouping_id、rollup、 
collect set, concat _ ws 等 图 数 。Hive 也 可 以 处 理 递 归 树 的 平面 化 、 树 的 
展开 、 递 归 碍 询 等 问题 。 

(6) 除了 业务 主键 外 没有 其 他 内 容 的 维度 表 通 常 是 退化 维度 。 将 
业务 主键 作为 一 个 属性 加 入 到 事实 表 中 是 处 理 退 化 维度 的 适当 方式 。 

(7) 杂项 维度 就 是 一 种 包含 的 数据 具有 很 少 可 能 值 的 维度 。 有 时 
与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 ， 不 如 建立 单独 的 将 不 同 维度 合 
并 到 一 起 的 杂项 维度 。 

(8) 如 果 几 个 相关 维度 的 基数 都 很 小 ， 或 者 具有 多 个 公共 属性 
时 ， 可 以 考虑 将 它们 进行 维度 合并 。 

(9) 分 段 维 度 的 定义 中 包含 连续 的 分 段 度量 值 ， 通 常用 作客 户 维 
度 的 行为 标记 时 间 序 列 ， 分 析 客 户 行 为 。 























第 11 章 
EEF > 


上 一 章 里 介绍 了 几 种 基本 的 维度 表 技 术 ， 并 用 示例 演示 了 每 种 技术 
的 实现 过 程 。 本 章 说 明 多 维 数据 仓库 中 常见 的 事实 表 技术 。 

下 面 将 讲述 5 种 基本 事实 表 扩 展 技 术 ， 分 别 是 周期 快照 、 累 积 快 
照 、 无 事实 的 事实 表 、 人 述 到 的 事实 和 累积 度量 。 和 讨论 维度 表 技 术 一 
样 ， 也 会 从 概念 开始 认识 这 些 技术 ， 继 而 给 出 常见 的 使 用 场景 ， 最 后 以 
销售 订单 数据 仓库 为 例 ， 给 出 实现 代码 和 测试 过 程 。 实 现 中 会 修改 数据 
仓库 模式 和 相关 ETL 脚 本 。 





11.1 事实 表 概 述 


发 生 在 业务 系统 中 的 操作 型 事务 ， 其 所 产生 的 可 度量 数值 ， 存 储 在 
事实 表 中 ， 从 最 细 市 粒度 级 别 看 ， 事 实 表 和 操作 型 事务 表 的 数据 有 一 一 
对 应 的 关系 。 因 此 ， 数 据 仓库 中 事实 表 的 设计 应 该 依赖 于 业务 系统 ， 而 
不 受 可 能 产生 的 最 终 报表 影响 。 除 数字 类 型 的 度量 外 ， 事 实 表 总 是 包含 
所 引用 维度 表 的 外 键 ， 也 能 包含 可 选 的 退化 维度 键 或 时 间 惟 。 数 据 分 析 
的 实质 就 是 基于 事实 表 开 展 计算 和 聚合 操作 。 


事实 表 中 的 数字 度量 值 可 划分 为 可 加 、 半 可 加 、 不 可 加 三 类 。 可 加 
性 度量 可 以 按照 与 事实 表 关 联 的 任意 维度 汇总 ， 就 是 说 按 任何 维度 汇总 
得 到 的 度量 和 是 相同 的 ， 事 实 表 中 的 大 部 分 度量 属于 此 类 。 半 可 加 度量 
可 以 对 茶 些 维度 汇总 ， 但 不 能 对 所 有 维度 汇总 。 余 额 是 冲 见 的 半 可 加 度 
， 除 了 时 间 维 度 外 ， 它 们 可 以 跨 所 有 维度 进行 加 法 操作 。 为 外 ， 还 有 
度量 是 完全 不 可 加 的 ， 例 如 比例 。 对 不 可 加 度量 ， 较 好 的 处 理 方法 是 
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尽 可 能 存储 构成 不 可 加 度量 的 可 加 分 量 ， 如 构成 比例 的 分 子 和 分 母 ， 并 
将 这 些 分 量 汇 总 到 最 终 的 结果 集合 中 ， 而 对 不 可 加 度量 的 计算 通常 发 生 
在 BI 层 或 OLAP 层 。 


事实 表 中 可 以 存在 空 值 度量 。 所 有 聚合 函数 ， 如 sum、count、 
min、max、avg 等 均 可 针对 空 值 度量 计算 ， 其 中 sum、count( 字 上 段 名 )、 
min、max、avg 会 忽略 空 值 ， Tiicount(1)sficount(*\ZE3+ 数 时 会 将 空 值 包 
含 在 内 。 然 而 ， 事 实 表 中 的 外 键 不 能 存在 空 值 ， 否 则 会 导致 违反 参照 完 
整 性 的 情况 发 生 。 关 联 的 维度 表 必 须 用 默认 代理 键 而 不 是 空 值 表示 未 知 
的 条 件 。 


很 多 情况 下 数据 仓库 需要 装载 如 下 三 种 不 同类 型 的 事实 表 。 


























e 事务 事实 表 : 以 每 个 事务 或 事件 为 单位 ， 例 如 一 个 销售 订单 记 
录 、 一 笔 转 账 记录 等 ， 作 为 事实 表 里 的 一 行 数据 。 这 类 事实 表 可 
能 包含 精确 的 时 间 惟 和 退化 维度 键 ， 其 度量 值 必须 与 事务 粒度 保 
持 一 致 。 销 售 订单 数据 仓库 中 的 sales_order _ fact 表 就 是 事务 事实 
*. 

周期 快照 事实 表 : 这 种 事实 表 里 并 不 保存 全 部 数据 ， 只 保存 固定 
时 间 间 隔 的 数据 ， 例 如 每 天 或 每 月 的 销售 额 ， 或 每 月 的 账户 余额 
as 

累积 快照 事实 表 : 累积 快照 用 于 跟 踩 事实 表 的 变化 。 例 如 ， 数 据 
仓库 可 能 需要 累积 或 存储 销售 订单 从 下 订单 的 时 间 开 始 ， 到 订单 
中 的 商品 被 打包 、 运 输 和 到 达 的 各 阶段 的 时 间 点 数据 来 跟 踊 订单 
生命 周期 的 进展 情况 。 当 这 个 过 程 进行 时 ， 随 着 以 上 各 种 时 间 的 
出 现 ， 事 实 表 里 的 记录 也 要 不 断 更 新 。 





























11.2 周期 快照 





周期 快照 事实 表 中 的 每 行 汇总 了 发 生 在 某 一 标准 周期 ， 如 一 天 、 一 
周 或 一 月 的 多 个 度量 。 其 粒度 是 周期 性 的 时 间 段 ， 而 不 是 单个 事务 。 周 
期 快照 事实 表 通 常 包含 许多 数据 的 总 计 ， 因 为 任何 与 事实 表 时 间 范围 一 
致 的 记录 都 会 被 包含 在 内 。 在 这 些 事实 表 中 ， 外 键 的 密度 是 均匀 的 ， 因 
为 即使 周期 内 没有 活动 发 生 ， 通 常 也 会 在 事实 表 中 为 每 个 维度 插入 包 合 
0 或 空 值 的 行 。 

周期 快照 在 库存 管理 和 人 力 资源 系统 中 有 比较 广泛 的 应 用 。 商 店 的 
库存 优化 水 平 对 连锁 企业 的 获 利 将 产生 巨大 影响 。 需 要 确保 正确 的 产品 
处 于 正确 的 商店 中 ， 在 正确 的 时 间 尽量 减少 出 现 脱销 的 情况 ， 并 减少 总 
的 库存 管理 费用 。 零 售 商 希望 通过 产品 和 商店 分 析 每 天 保有 商品 的 库存 
水 平 。 在 这 个 场景 下 ， 我 们 希望 分 析 的 业务 过 程 是 零售 商店 库存 的 每 日 
周期 快照 。 在 人 力 资源 管理 系统 中 ， 除 了 为 员工 建立 档案 外 ， 还 希望 获 
得 员工 状态 的 例 行 报告 ， 包 括 员工 数量 、 支 付 的 工资 、 假 期 天 数 、 新 增 
员工 数量 、 离 职员 工 数量 ， 晋 升 人 员 数 量 等 。 这 时 需要 建立 一 个 每 月 员 
工 统计 周期 快照。 

周期 快照 是 在 一 个 给 定 的 时 间 对 事实 表 进 行 一 段 时 期 的 总 计 。 有 些 
数据 仓库 用 户 ， 尤 其 是 业务 管理 者 或 者 运营 部 门 ， 经 常 要 看 某 个 特定 时 
间 点 的 汇总 数据 。 下 面 在 示例 数据 仓库 中 创建 一 个 月 销售 订单 周期 快 
照 ， 用 于 按 产品 统计 每 个 月 总 的 销售 订单 金额 和 产品 销售 数量 。 


1. 修改 数据 仓库 模式 


再 求 是 要 投产 品 统计 每 个 月 的 销售 金额 和 销售 数量 。 单 从 功能 
看 ， 此 数据 能 够 从 事务 事实 表 中 直接 碍 询 得 到 。 例 如 ， 要 取得 2016 年 7 
月 的 销售 数据 ， 可 以 使 用 以 下 的 语句 查询 : 


select 
















































































b.month 


b.year 


- 2016 
group by 


b.month sk, a.product sk ; 


只 要 将 年 、 月 参数 传递 给 这 条 查询 语句 ， 就 可 以 获得 任何 年 月 的 统 
计数 据 。 但 即便 是 在 如 此 简单 的 场景 下 ， 我 们 仍然 需要 建立 独立 的 周期 
快照 事实 表 。 事 务 事实 表 的 数据 量 都 会 很 大 ， 如 果 每 当 需 要 月 销售 统计 
数据 时 ， 都 从 最 细 粒 度 的 事实 表 查 询 ， 那 么 性 能 将 会 差 到 不 堪 忍 受 的 程 
度 。 再 者 ， 月 统计 数据 往往 只 是 下 一 步 数 据 分 析 的 输入 信息 ， 有 时 把 更 
复杂 的 逻辑 放 到 一 个 单一 的 查询 语句 中 效率 会 更 差 。 因 此 ， 好 的 做 法 是 
将 事务 型 事实 表 作 为 一 个 基石 事实 数据 ， 以 此 为 基础 ， 同 上 逐 层 建 并 需 
要 的 快照 事实 表 。 图 11-1 中 的 模式 显示 了 一 个 名 为 
month end sales order fact 的 周期 快照 事实 表 。 





























month end sales order fact 








product sk <pi,fild «M» 
order month sk <pi,fi2> «M» 






month order amount 
month order quantity 
















product dim 









product sk <pi> £M» month dim 
product code month sk £pi» «M5 


一 一 -一 month 

month name 
campaign session 
quarter 

year 


product name 
product category 
version 
effective date 
expiry date 


























图 11-1 月 销售 统计 周期 快照 事实 表 











新 的 周期 快照 事实 表 中 有 两 个 度量 值 ， 即 month_order_amount 和 
month_order_quantity。 这 两 个 值 是 不 能 加 到 sales_order_fact 表 中 的 ， 原 
因 是 ，sales_order_fact 表 和 新 的 度量 值 有 不 同 的 时 间 属 性 ， 也 即 数据 的 
粒度 不 同 。sales_order_fact 表 包含 的 是 单一 事务 记录 。 新 的 度量 值 包含 
的 是 每 月 的 汇总 数据 。 销 售 周 期 快照 是 一 个 普通 的 引用 两 个 维度 的 事实 
表 。 月 份 维度 表 包 含 以 月 为 粒度 的 销售 周期 描述 符 。 产 品 代理 键 对 应 有 
效 的 产品 维度 行 ， 也 就 是 给 定 报告 月 的 最 后 一 天 对 应 的 产品 代理 键 ， 以 
保证 月 未 报表 是 对 当前 产品 信息 的 准确 描述 。 快 照 中 的 事实 包含 每 月 的 
数字 度量 和 计数 ， 它 们 是 可 加 的 。 该 快照 事实 表 使 用 ORC 存 储 格 式 。 使 
用 














下 面 的 脚本 建立 month end sales_order fact 表 。 


use 


dw; 
create table 


month end sales order fact ( 
order month sk int comment 


'order month SK', 
product sk int comment 


'product SK', 
month order amount decimal 


(10,2) comment 


'month order amount', 
month order quantity int comment 


'month order quantity' 


) 
clustered by 
(order month sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


2. 编写 快照 表 数 据 装载 脚本 








建立 month_end_sales_order_fact 表 后 ， 现 在 需要 问 表 中 装载 数据 。 
实际 装载 时 ， 月 销售 周期 快照 事实 表 的 数据 源 是 已 有 的 销售 订单 事务 事 
实 表 ， 而 并 没有 关联 产品 维度 表 。 之 所 以 可 以 这 样 做 ， 是 因为 总 是 先 处 
理事 务 事实 表 ， 再 处 理 周 期 快照 事实 表 ， 并 且 事 务 事实 表 中 的 产品 代理 
键 承 是 当时 有 效 的 产品 描述 。 这 样 做 还 有 一 个 好 处 是 ， 不 必要 非 在 1 号 
装载 上 月 的 数据 ， 这 点 在 后 面 修 改 工 作 流 时 会 详细 说 明 。month_sum.sql 
脚本 文件 用 于 装载 月 销售 订单 周期 快照 事实 表 ， 该 文件 内 容 如 下 。 


-- 设置 变量 以 支持 事务 
set 


























hive.support.concurrency-true 


/ 
set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanager 
set 


hive.compactor.initiator.on-true 


/ 
set 


hive.compactor.worker.threads-1; 


use 


dw; 
-- 上 月 某 日 期 
set 


hivevar:pre month date - add months(current date 


pak) 
-- RFE, FOR EA Be 
delete from 


month_end_sales_order_fact 
where 


month end sales order fact.order month sk in 


(select 


month sk 
from 


month dim 
where month 


= month 


($(hivevar:pre month date]) 
and year 


- year 


($(hivevar:pre month date))); 


- -插入 上 月 销售 汇总 数据 


insert into 








month end sales order fact 
select 


b.month sk, 
nvl 


(a.product sk, 'N/A'), 
sum 


(order amount), 
sum 


(order quantity) 
from 


order date dim d 
left join 





- year 


($(hivevar:pre month date]) 
group by 


b.month sk, a.product sk ; 


前 面 曾经 提 到 过 ， 周 期 快照 表 的 外 键 密度 是 均匀 的 ， 因 此 这 里 使 用 
外 连接 关联 订单 日 期 维度 和 事务 事实 表 。 即 使 上 个 月 没有 任何 销售 记 
录 ， 周 期 快照 中 仍然 会 有 一 行 记 录 。 在 这 种 情况 下 ， 周 期 快照 记录 中 只 
有 月 份 代理 键 ， 而 产品 代理 键 的 值 为 预定 义 的 NMA"， 这 可 以 通过 nvl 函 
数 实现 ， 上 度量 则 为 空 值 。 严 格 地 说 产品 维度 表 中 应 该 增加 ‘N/A? 这 样 一 
行 表示 没有 对 应 产品 时 的 默认 值 。 

每 个 月 给 定 的 任何 一 天 ， 在 每 天 销售 订单 定期 装载 执行 完 后 ， 执 行 
month_sum.sql 脚 本 ， 装 载 上 个 月 的 销售 订单 汇总 数据 。 为 此 需要 修改 
Oozie 的 工作 流 定 义 。 


3. 修改 工作 流 作业 配置 文件 














需要 在 9.3 节 中 创建 的 workflow.xml 工 作 流 定义 文件 中 增加 月 底 销 售 
周期 快照 的 数据 装载 部 分 ， 修 改 后 的 文件 内 容 如 下 (只 列 出 了 增加 的 部 


J 


ee S soon 

SERO KK E E 
， 三 个 并 行 执行 的 Sqoop 节 点 ... 

ae OIN GEA ao 
regular_et1.sdq1L 脚 本 的 Hive 节 点 ... 


«decision name="decision-node"> 
«switch» 
«case to="month-sum"> 


${date eq 20} 
</case> 
<default to="end"/> 
</switch> 
</decision> 


<action name="month-sum"> 
<hive xmlns="uri:oozie:hive-action:0.2"> 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name node» 
<job-xml>/tmp/hive-site.xml</job-xm1> 
<script>/tmp/month_sum.sql</script> 
</hive> 
<ok to="end"/> 
«error to="fail"/> 
</action> 


ras es be nis 
send EF na: 





在 该 配置 文件 中 增加 了 一 个 名 为 decision-node 的 decision 控 制 节点 ， 
用 来 判断 date 参 数 的 值 。 当 date 等 于 20 时 ， 转 到 month-sum 动 作 节 点 ， 人 否 
则 转 到 end 节 点 结束 工作 流 。monthsum 也 是 一 个 Hive 动 作 节点 ， 执 行 
month_sum.sql 文 件 装载 周期 快照 事实 表 ， 成 功 执行 后 转 到 end 节 点 结 
束 。 很 明显 ， 本 例 中 decision 节 点 的 作用 就 是 控制 在 并 且 只 在 一 个 月 当 
中 的 某 一 天 执行 周期 快照 表 的 数据 装载 ， 其 他 日 期 不 做 这 步 操作 。 之 所 
以 这 里 是 20 是 为 了 方便 测试 。month_sum.sql 文 件 中 使 用 的 是 
add_months(current_date,-1) 取 上 个 月 的 年 月 ， 因 此 不 必要 非得 1 号 执行 ， 
任何 一 天 都 可 以 。 这 个 工作 流 定 义 保证 了 每 月 汇总 只 有 在 每 天 汇总 执行 
完 后 才 执 行 ， 并 且 每 月 只 执行 一 次 。 工 作 流 的 DAG 如 图 11-2 所 示 。 























fork 
sqoop-customer sqoop-product sqoop-sales order 
join 
hive-node < decision-node .— ——»* month-sum 


end 0p] d 


图 11-2 387 T A Rea AL Pat 


4. 修改 协调 作业 配置 文件 





需要 在 调度 作业 配置 文件 中 增加 date 属 性 的 定义 。 调 度 执行 工作 流 
时 ， 该 属性 的 值 会 作为 实 参 传 入 workflow.xml 工 作 流 定义 文件 中 。 修 改 
后 的 coordinator.xml 文 件 内 容 如 下 : 


<coordinator-app name-"regular etl-coord" frequency="${coord:days(1)}" start="${start}" 
end="${end}" timezone="${timezone}" xmlns="uri 
:oozie:coordinator:0.1"» 
«action» 
«workflow» 
«app-path»$ {workflowAppUri}</app-path> 
«configuration» 
<property> 
<name>jobTracker</name> 
<value>${jobTracker}</value> 
</property> 
<property> 
<name>nameNode</name> 
<value>$ {nameNode}</value> 
</property> 
<property> 
<name>queueName</name> 
<value>$ { queueName}</value> 
</property> 
<property> 
<name>date</name> 
<value>${date}</value> 
</property> 
</configuration> 
</workflow> 
</action> 
</coordinator-app> 


5. 修改 协调 作业 属性 文件 


修改 后 的 job-coord.properties 文 件 内 容 如 下 : 


nameNode-hdfs://cdh2:8020 

jobTrackerzcdh2:8032 

queueName-default 

oozie.use.system.libpath-true 
oozie.coord.application.path=${nameNode}/user/${user .name} 
timezone=UTC 

start-2016-07-20T01:30Z 

end-2020-12-31T01:30Z 
workflowAppUri-$([nameNodej)/user/$[(user.name) 


对 比 9.3 节 创建 的 job-coord.properties 文 件 ， 这 里 只 修改 了 start 和 end 
属性 的 值 以 用 于 测试 。 


6. 部 车工 作 流 和 协调 作业 


hdfs dfs -put -f coordinator.xml /user/root/ 

hdfs dfs -put -f /root/workflow.xml /user/root/ 

hdfs dfs -put -f /etc/hive/conf.cloudera.hive/hive-site.xml /tmp 
hdfs dfs -put -f /root/mysql-connector-java-5.1.38/mysql-connect 
hdfs dfs -put -f /root/regular etl.sql /tmp/ 

hdfs dfs -put -f /root/month sum.sql /tmp/ 





将 所 有 相关 文件 从 本 地 上 传 到 HDFS 对 应 目录 中 ， 如 果 文 件 已 经 存 
TE NIZE i o 


7. 运行 协调 作业 进行 测试 


执行 下 面 的 shell 命 令 运行 Oozie 工 作 流 : 


oozie job -oozie http://cdh2:11000/00zie -config /root/job-coord 


date- date +"%d" 


注意 这 里 使 用 -D 命 令 行 参 数 设置 coordinator.xml 文 件 中 定义 的 date 属 
性 的 值 。 命 令 行 设置 的 属性 值 优 先 级 高 于 属性 文件 中 的 设置 。date 
-"96d" shell 命令 返回 按 月 计 的 日 期 ， 例 如 01、20 等 。 到 了 9 点 半 工 作 流 
开始 运行 ， 执 行 完 全 成 功 后 ，month_end_sales_order fact 表 中 应 该 已 经 
有 了 上 个 月 的 销售 订单 汇总 数据 。 

周期 快照 粒度 表示 一 种 常规 性 的 重复 的 度量 或 度量 集合 ， 比 如 每 月 
报表 。 这 类 事实 表 通 党 包括 一 个 单一 日 期 列 ， 表 示 一 个 周期 。 周 期 快照 
B a Ax did nr F Are X8] BHRS EST [8] V. FUIS] BE 

。 周 期 快照 是 一 种 音 见 的 事实 表 类 型 ， 每 月 
财务 报表 以 及 库存 余额 额 等 。 周 期 快照 的 周期 通常 是 天 、 周 或 月 等 。 

















周期 快照 具有 与 事务 粒度 事实 表 类 似 的 装载 特性 ， 插 入 数据 的 过 程 
类 似 。 传 统 上 ， 周 期 快照 在 适当 的 时 期 结束 时 将 被 装载 ， 就 像 示 例 演示 
的 那样 。 还 有 常见 的 一 种 做 法 是 ， 深 动 式 地 添加 周期 快照 记录 。 在 满足 
以 下 两 个 条 件 时 ， 往 往 采 用 滚动 式 数据 装载 。 一 是 事务 数据 量 非常 大 ， 
以 至 于 装载 一 个 月 的 快照 需要 很 长 时 间 ; 二 是 快照 的 度量 是 可 增加 的 。 
例如 ， 我 们 可 以 建立 每 日 销售 周期 快照 ， 数 据 从 事务 事实 表 汇 总 而 来 ， 
然后 月 快照 数据 从 每 日 快照 汇总 。 这 样 能 够 把 一 个 大 的 查询 分 散 到 每 一 
天 进行 。 








11.3 ”累积 快照 





累积 快照 事实 表 用 于 定义 业务 过 程 开 始 、 结 束 以 及 期 间 的 可 区 分 的 
里 程 碑 事件 。 通 党 在 此 类 事实 表 中 针对 过 程 中 的 关键 步骤 都 包含 日 期 外 
键 ， 并 包含 每 个 步骤 的 上 度量， 这 些 上 度量 的 产生 一 般 都 会 滞后 于 数据 行 的 
创建 时 间 。 趟 积 快照 事实 表 中 的 一 行 ， 对 应 茶 一 具体 业务 的 多 个 状态 。 
例如 ， 当 订单 产生 时 会 插入 一 行 ， 当 该 订单 的 状态 改变 时 ， 累 积 事实 表 
行 被 访问 并 修改 。 这 种 对 累积 快照 事实 表 行 的 一 致 性 修改 在 三 种 类 型 的 
事实 表 中 具有 独特 性 ， 对 于 前 面 介绍 的 两 类 事实 表 只 退 加 数据 ， 不 会 对 
己 经 存在 的 行进 行 更 新 操作 。 除 了 日 期 外 键 与 每 个 关键 过 程 步骤 关联 
外 ， 球 积 快照 事实 表 中 还 可 以 包含 其 他 维度 和 可 选 退化 维度 的 外 键 。 


累积 快照 事实 表 在 库存 、 采 购 、 销 售 、 电 商 等 业务 领域 都 有 广泛 应 
用 。 比 如 在 电 商 订单 里 面 ， 下 单 的 时 候 只 有 下 单 时 间 ， 但 是 在 文 付 的 时 
候 ， 又 会 有 文 付 时 间 ， 同 理 ， 还 有 发 货 时 间 ， 完 成 时 间 等 。 下 面 以 销售 
订单 数据 仓库 为 例 ， 讨 论 累积 快照 事实 表 的 实现 。 

假设 希望 跟踪 以 下 5 个 销售 订单 的 里 程 碑 下 订单 、 分 配 库房 、 打 
包 、 配 送 和 收 货 ， 分 别 用 状态 N、A、P、S、R 表 示 。 这 5 个 里 程 碑 的 日 
期 及 其 各 目的 数量 来 自 源 数据 库 的 销售 订单 表 。 一 个 订单 完整 的 生命 周 
























































期 由 5 行 数 据 描述 ， 下 订单 时 生成 一 条 销售 订单 记录 ; 订单 商品 被 分 配 
到 相应 库房 时 ， 新 增 一 条 记录 ， 存 储 分 配 时 间 和 分 配 数量 ， 产 品 打 包 时 
新 增 一 条 记录 ， 存 储 打包 时 间 和 数量 ， 类 似 的 ， 订 单 配送 和 订单 客户 收 
货 时 也 都 分 别 新 增 一 条 记录 ， 保 存 各 目的 时 间 惟 与 数量 。 为 了 简化 示 

例 ， 不 考虑 每 种 状态 出 现 多 条 记录 的 情况 〈 例 如， 一 条 订单 中 的 产品 可 
能 是 在 不 同时 间 点 分 多 次 出 库 ) ， 并 且 假 设 这 5 个 里 程 碑 是 以 严格 的 时 
间 顺 序 正 同 进行 的 。 

对 订单 的 每 种 状态 新 增 记 录 只 是 处 理 这 种 场景 的 多 种 设计 方案 之 
一 。 如 果 里 程 碑 的 定义 民 好 并 且 不 会 轻易 改变 ， 也 可 以 考虑 在 源 订 单 事 
务 表 中 新 增 每 种 状态 对 应 的 数据 列 ， 例 如 ， 新 增 8 列 ， 保 存 每 个 状态 的 
时 间 戳 和 数量 。 新 增 列 的 好 处 是 仍然 能 够 保证 订单 号 的 唯一 性 ， 并 保持 
相对 较 少 的 记录 数 。 但 是 ， 这 种 方案 还 需要 额外 增加 一 个 last_modified 
字段 记录 订单 的 最 后 修改 时 间 ， 用 于 Sqoop 增 量 数 据 抽取 。 因 为 每 条 订 
单 在 状态 变更 时 都 会 被 更 新 ， 所 以 订单 号 字段 已 经 不 能 作为 变化 数据 捕 
获 的 比较 依据 。 


1. 修改 数据 库 柑 式 


执行 下 面 的 脚本 将 源 数 据 库 中 销售 订单 事务 表 结 构 做 相应 改变 ， 以 
处 理 5 种 不 同 的 状态 。 














- mysql 
use 


source; 
-- 修改 销售 订单 事务 表 
alter table 





sales order 
change order date status date datetime 


add 


order status varchar 


(1) after 


status date, 
change order quantity quantity int 


1 
了 


-- 删除 sales_order 表 的 主键 
alter table 





sales order change order number order number int not null 


alter table 
sales order drop primary key 


A 
, 


-- 建立 新 的 主键 
alter table 








sales order add 


id int 


unsigned not null 


auto increment 
primary key comment 





E89 first 


Vi 8j: 





e 将 order_date 字 段 改 名 为 status_date， 因 为 日 期 不 再 单纯 指 订单 日 
期 ， 而 是 指 变 为 某 种 状态 日 期 。 

e 将 order_quantity 字 段 改 名 为 quantity， 因 为 数量 变 为 某 种 状态 对 应 
的 数量 。 

在 status_date 字 段 后 增加 order_status 字 段 ， 存 储 N、A、P、S、R 
等 订单 状态 之 一 。 它 描述 了 status_date 列 对 应 的 状态 值 ， 例 如 ， 
如 果 一 条 记录 的 状态 为 N， 则 status_date 列 是 下 订单 的 日 期 。 如 果 
状态 是 R，status_date 列 是 收 货 日 期 。 

每 种 状态 都 会 有 一 条 订单 记录 ， 这 些 记 录 上 共有 相同 的 订单 号 ， 
此 订单 写 不 能 再 作为 事务 表 的 主键 ， 需 要 删除 order_number 字 上 段 
上 的 自 增 属性 与 主键 约束 。 

e 新 增 id 字段 作为 销售 订单 表 的 主键 ， 它 是 表 中 的 第 一 个 字段 。 











依据 源 数据 库 事 务 表 的 结构 ， 执 行 下 面 的 脚本 修改 Hive 中 相应 的 过 
渡 区 表 。 


use 


rds; 
alter table 


sales order 
change order date status date timestamp comment 


'status date'; 
alter table 


sales order 
change order quantity quantity int comment 


'quantity'; 
alter table 


sales order 
add 


columns (order status varchar 


(1) comment 


'order status'); 


说 明 : 


。 将 销售 订单 事实 表 中 order_date 和 order_quantity 字 段 的 名 称 修改 为 
与 源 表 一 致 。 

。 增加 订单 状态 字段 。 

e rds.sales_order 并 没有 增加 id 列 ， 原 因 有 两 个 : 一 是 该 列 只 作为 增 
量 检 查 列 ， 不 用 在 过 渡 表 中 存储 ; 二 是 不 需要 再 重新 导入 已 有 数 
据 。 


执行 下 面 的 脚本 将 数据 仓库 中 的 事务 事实 表 改造 成 累积 快照 事实 











dw; 
-- 事实 表 增 加 八 列 
alter table 





sales order fact rename to 


sales order fact old; 
create table 


sales order fact 


( 


order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
customer zip code sk int comment 


'customer zip code SK', 
shipping zip code sk int comment 


'shipping zip code SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 


allocate date sk int comment 'allocate date SK', 


allocate quantity int comment 'allocate quantity', 


packing date sk int comment 'packing date SK', 


packing quantity int comment 'packing quantity', 


ship date sk int comment 'ship date SK', 


ship quantity int comment 'ship quantity', 
receive date sk int comment 'receive date SK', 
receive quantity int comment 'receive quantity', 


request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity' 


) 
clustered by 
(order number) into 


8 buckets 


stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


sales order fact 
select 


order number, 
customer sk, 
customer zip code sk, 
shipping zip code sk, 
product sk, 
sales order attribute sk, 
order date sk, 
null, null, null, null, null, null, null, null, 








request delivery date sk, 
order amount, 
order quantity 

from 


sales order fact old; 
drop table 


sales order fact old; 


-- 建立 4 个 日 期 维度 视图 
create view 








allocate date dim 
(allocate date sk, allocate date, month 











, month 


, month name, quarter, year 


from 


date dim ; 


说 明 : 


在 销售 订单 事实 表 中 新 增加 8 个 字段 存储 4 个 状态 的 日 期 代理 键 和 
度量 值 。 

新 增 8 个 字段 的 初始 值 为 空 。 

建 了 4 个 日 期 角色 扮演 维度 视图 ， 用 来 获取 相应 状态 的 日 期 代理 
键 。 

ORC 表 增加 字段 需要 重建 表 以 重新 组 织 数 据 。 














2. 重建 Sqgoop 作 业 


使 用 下 面 的 脚本 重建 Sgqgoop 作 业 ， 因 为 源 表 会 有 多 个 相同 的 
order_number， 上 所 以 不 能 再 用 它 作为 检查 字段 ， 将 检查 字段 改 为 id。 抽 
取 的 字段 名 称 也 要 做 相应 修改 。 


last value-'sqoop job --show myjob incremental import --meta-con 
jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep incremental.last.valu 
sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 

--create myjob_incremental_import \ 


-- \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source?useSSL-false&user-root& 
--table sales_order \ 

--columns "order_number, customer_number, product_code, status_d 


, entry_date, 
order_amount, quantity 


, request delivery date, verification ind, credit check flag, 
new customer ind, web order flag, order status 


W iN 

--hive-import \ 

--hive-table rds.sales_order \ 
--incremental append \ 
--check-column id \ 


--last-value $last_value 


3. 修改 定期 装载 regular_etl.sql 文 件 








需要 依据 数据 库 模 式 修改 定期 装载 的 HiveQL 脚 本 ， 修 改 后 的 脚本 
如 下 所 示 《 只 列 出 修改 的 部 分 ) 。 


-- 设置 环境 与 时 间 窗 口 ... 
-- 装载 customer 维 度 ... 
-- 装载 product 维 度 ... 
-- 装载 销售 订单 事实 表 

-- 前 一 天 新 增 的 销售 订单 


insert into 

















sales order fact 
select 


.Oorder number, 

.Customer sk, 

.Customer zip code sk, 

.shipping zip code sk, 

.product sk, 

.sales order attribute sk, 

e.order date sk, 

null, null, null, null, null, null, null, null, 








Q o.u.mpb o0 DY 


f.request delivery date sk, 
order amount, 
quantity 

from 


rds.sales order a, 
customer dim c, 
product dim d, 
order date dim e, 
request delivery date dim f, 
sales order attribute dim g, 
customer zip code dim i, 
shipping. zip code dim j, 
rds.customer k, 
rds.cdc time 1 

where a.order status - 'N' 


and 


a.customer number - c.customer number 
and 


a.status date »- c.effective date 


and 


a.status date « c.expiry date 


and 


a.customer number = 
and 


k.customer zip code 
and a.status date »- 


and a.status date «- 


and 


k.shipping zip code 
and 


k.customer number 


= j.customer zip code 
i.effective date 


i.expiry date 


j.shipping zip code 


a.status date »- j.effective date 


and 


a.status date «- j.expiry date 


and 


a.product code - d.product code 


and 


a.status date »- d.effective date 
and 


a.status date « d.expiry date 
and to date 


(a.status date) - e.order date 
and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date « l.current load ; 


-- 更 新 分 配 库房 时 间 代 理 键 和 度量 


drop table if exists 

















ul 








tmp; 
create table 


tmp as 


select 


tOo.order number order number, 
tO.customer sk customer sk, 
tO.customer zip code sk customer zip code sk, 
tO.shipping zip code sk shipping zip code sk, 
tO.product sk product sk, 
tO.sales order attribute sk sales order attribute sk, 
tOo.order date sk order date sk, 
t2.allocate date sk allocate date sk, 
ti.quantity allocate quantity, 
tO.packing date sk packing date sk, 
tO.packing quantity packing quantity, 
tO.ship date sk ship date sk, 
tO.ship quantity ship quantity, 
tO.receive date sk receive date sk, 
tO.receive quantity receive quantity, 
tO.request delivery date sk request delivery date sk, 
tO.order amount order amount, 
tO.order quantity order quantity 








from 


sales order fact t0, 
rds.sales order t1, 
allocate date dim t2, 


rds.cdc time t4 
where 


tO.order number = ti.order number and 


ti.order status = 'A' 
and to date 


(ti.status date) = t2.allocate date 
and 


ti.entry date >= t4.last load and 


til.entry date < t4.current load; 


delete from 


sales order fact where 


sales order fact. order number in 


(select 


order number 
from 


tmp); 


insert into 
sales order fact select * from 


tmp; 
- 更 新 打包 时 间 代 理 键 和 度量 ， 关 联 packing_date_dim 维 度 视图 ，order_status 


更 新 配送 时 间 代 理 键 和 度量 ， 关 联 ship_date_dim 维 度 视 图 ，order_status = 
- 更 新 收 货 时 间 代 理 键 和 上 度量， 关联 receive_date_dim 维 度 视 图 ，order_status 


-- 重 载 pa 客户 维度 ... 
- 更 新 时 间 惟 表 的 last_1oad 字 段 ，.， 
要 修改 定期 数据 装载 中 的 事实 表 部 分 ， 针 对 5 个 里 程 碑 分 别处 

理 。 首 先 装 载 新 增 的 订单 。 在 装载 事务 事实 表 时 ， 只 用 entry_date >= 
last load and entry. date < current_load 条 件 就 可 以 过 滤 出 新 增 的 订单 。 但 
是 对 于 累积 快照 ， 一 个 登记 日 期 下 会 有 多 种 状态 的 订单 ， 因 此 需要 增加 
订单 状态 order_status = 'N' 的 判断 。 装 载 新 增订 单 时 要 连接 过 渡 区 的 销售 
订单 表 以 及 所 有 相关 的 维度 表 ， 从 过 渡 表 中 获取 订单 金额 和 订单 产品 数 
量度 量 值 ， 从 维度 表 中 获取 相关 维度 的 代理 键 。 

其 他 4 个 状态 的 处 理 和 新 增订 单 有 所 不 同 。 因 为 此 时 订单 记录 已 经 
存在 ， 除 了 与 特定 状态 相关 的 日 期 维度 代理 键 和 状态 数量 需要 更 改 ， 其 
他 的 信息 不 需要 更 新 。 例 如 ， 当 一 个 订单 的 状态 由 新 增 变 为 分 配 库房 
时 ， 只 要 使 用 订单 号 字段 关联 累积 快照 事实 表 和 过 渡 区 的 事务 表 ， 以 事 
务 表 的 order_status = 'A' 为 筛选 条 件 ， 更 新 蒜 积 快照 事实 表 的 状态 日 期 代 
理 键 和 状态 数量 两 个 字段 即 可 。 对 其 他 三 个 状态 的 处 理 是 类 似 的 ， 只 要 
将 过 滤 条 件 换 成 对 应 的 状态 值 ， 并 关联 相应 的 日 期 维度 视图 获取 日 期 代 
理 键 。 


注意 ， 本 示例 中 的 累积 周期 快照 表 仍 然 是 以 订单 写字 段 作 为 逻辑 上 
的 主键 ， 数 据 装 载 过 程 实际 上 是 做 了 一 个 行 转 列 的 操作 ， 用 源 数据 表 中 





















































的 状态 行 信息 更 新 累积 快照 的 状态 列 。Hive 目 前 没有 多 表 更 新 功能 ， 所 
以 用 先 删 除 再 插入 的 方式 蔡 代 。 之 所 以 可 以 这 样 做 ， 是 因为 事务 事实 表 
中 的 订单 号 字段 起 到 了 主键 的 作用 ， 它 能 够 唯一 标识 一 行 数 据 。 昌 然 处 
理 方式 相同 ， 但 对 于 每 种 状态 还 是 需要 编写 单独 的 HiveQL 语 句 进 行 处 
理 。 




















4. 测试 


可 以 按照 以 下 步骤 进行 累积 快照 事实 表 的 数据 装载 测试 。 

C1) 在 源 数据 库 的 销售 订单 事务 表 中 新 增 两 个 销售 订单 记录 。 

(2) 设置 适当 的 cdc_time 时 间 窗 口 。 

(3) 执行 定期 闭 载 脚本 。 

(4) 碍 询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 
功 。 此 时 应 该 只 有 订单 日 期 代理 键 列 有 值 ， 其 他 状态 的 日 期 值 都 是 
NULL， 因 为 这 两 个 订单 是 新 增 的 ， 并 且 还 没有 分 配 库房 、 打 包 、 配 送 
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(5) 在 源 数据 库 中 添加 销售 订单 作为 这 两 个 新 增订 单 的 分 配 库房 
和 打包 里 程 碑 。 

(60 设置 适当 的 cdc_time 时 间 窗 口 。 

(7) 执行 定期 闭 载 脚本 。 


(8) 碍 询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 
功 。 此 时 订单 应 该 具有 了 分 配 库房 或 打包 的 日 期 代理 键 和 度量 值 。 


(9) 在 源 数据 库 中 添加 销售 订单 作为 这 两 个 订单 后 面 的 里 程 碑 : 
打包 、 配 送 和 收 货 。 注 意 4 个 状态 日 期 可 能 相同 。 


(10) 设置 适当 的 cdc_time 时 间 窗 口 。 








C11) 执行 定期 装载 脚本 。 


(12) 查询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 
功 。 此 时 订单 应 该 有 具有 了 所 有 4 个 状态 的 日 期 代理 键 和 度量 值 。 


(13) 还 原 cdc_time 时 间 窗 口 。 


索 积 快照 粒度 表示 一 个 有 明确 开始 和 结束 过 程 的 当前 发 展 状态 。 通 
常 ， 这 些 过 程 持续 时 间 较 短 ， 并 且 状 态 之 间 没 有 固定 的 时 间 间 隅 ， 因 此 
无 法 将 它 归 类 到 周期 快照 中 。 订 单 处 理 是 一 种 典型 的 累积 快照 示例 。 系 
识 快照 的 设计 和 管理 与 其 他 两 类 事实 表 存 在 较 大 的 差异 。 所 有 累积 快照 
事实 表 都 包含 一 系列 日 期 ， 用 于 描述 典型 的 处 理工 作 流 。 


例如 ， 我 们 的 销售 订单 示例 包含 订单 日 期 、 分 配 库房 日 期 、 打 包 日 
期 、 配 送 日 期 以 及 收 货 日 期 等 ， 这 5 个 不 同 的 日 期 是 以 5 个 不 同日 期 值 代 
理 键 的 外 键 出 现 的 。 当 订单 行 首次 建立 时 只 有 订单 日 期 ， 因 为 其 他 的 状 
态 都 还 没有 发 生 。 当 订单 在 其 流水 线 上 执行 时 ， 同 一 个 事实 行 极 顺序 访 
问 。 每 当 订 单 状 态 发 生 改 变 时 ， 趟 积 快照 事实 行 束 被 修改 。 日 期 外 键 被 
重 写 ， 各 类 上 度量 被 更 新 。 通 种 初 始 的 订单 生成 日 期 不 会 更 新 ， 因 为 它 描 
述 的 是 行 被 建立 的 时 间 ， 但 是 所 有 其 他 日 期 都 可 以 被 重 写 。 

通常 利用 三 种 事实 表 类 型 来 满足 各 种 需要 。 周 期 历史 可 以 通过 周期 
快照 获取 ， 细 市 数据 可 以 被 保存 到 事务 粒度 事实 表 中 ， 而 对 于 具有 多 个 
定义 民 好 里 程 碑 的 处 理工 作 流 ， 则 可 以 使 用 累积 快照 。 


























11.4 无 事实 的 事实 表 





在 多 维 数据 仓库 建 模 中 ， 有 一 种 事实 表 叫 做 “无 事实 的 事实 表 *。 普 
通 事实 表 中 ， 通 常会 保存 若干 维度 外 键 和 多 个 数字 型 度量 ， 上 度量 是 事实 
表 的 关键 所 在 。 然 而 在 无 事实 的 事实 表 中 没有 这 些 度 量 值 ， 只 有 多 个 维 
HERR. 表面 上 看 ， 无 事实 的 事实 表 是 没有 意义 的 ， 因 为 作为 事实 表 ， 





























毕竟 最 重要 的 就 是 度量 。 但 在 数据 仓库 中 ， 这 类 事实 表 有 其 特殊 用 途 。 
无 事实 的 事实 表 通 常用 来 跟踪 杀 种 事件 或 者 说 明 某 些 活动 的 范围 。 


无 事实 的 事实 表 可 以 用 来 跟踪 事件 的 发 生 。 例 如 ， 在 给 定 的 茶 一 天 
中 发 生 的 学 生 参 加 谍 程 的 事件 ， 可 能 没有 可 记录 的 数字 化 事实 ， 但 该 事 
实行 带 有 一 个 包 仿 日期、 学生、 教师 、 地 点 、 课 程 等 定义 民 好 的 外 键 。 
利用 无 事实 的 事实 表 可 以 按 各 种 维度 计数 上 诬 这 个 事件 。 


再 比如 学 生 注册 事件 ， 学 校 需要 对 学 生 按 学 期 进行 跟踪 。 维 度 表 包 
括 学 期 维度 、 谍 程 维 度 、 系 维度 、 学 生 维 度 、 注 册 专 业 维 度 和 取得 学 分 
维度 等 ， 而 事实 表 由 这 些 维度 的 主键 组 成 ， 事 实 只 有 注册 数 ， 并 且 恒 为 
1， 因 此 没有 必要 用 单独 一 列 来 表示 。 这 样 的 事实 表 主 要 用 于 回答 各 种 
情况 下 的 注册 数 。 

无 事实 的 事实 表 还 可 以 用 来 说 明 茶 些 活动 的 范围 ， 常 被 用 于 回 
答 “ 什 么 未 发 生 ” 这 样 的 问题 。 例 如 : 促销 范围 事实 表 。 通 常 销 售 事实 表 
可 以 回答 如 促销 商品 的 销售 情况 ， 可 是 无 法 回答 的 一 个 重要 问题 是 ， 处 
于 促销 状态 但 尚未 销售 的 产品 包括 哪些 ?销售 事实 表 所 记录 的 仅仅 古 实 
际 卖 出 的 产品 。 事 实 表 行 中 不 包括 由 于 没有 销售 行为 而 销售 数量 为 零 的 
行 ， 因 为 如 果 将 包含 零 值 的 产品 都 加 到 事实 表 中 ， 那 么 事实 表 将 变 得 非 
种 巨大 。 这 时 ， 通 过 建立 促销 范围 事实 表 ， 将 商场 需要 促销 的 商品 单独 
建立 事实 表 保 存 ， 然 后 通过 这 个 促销 范围 事实 表 和 销售 事实 表 即 可 得 出 
哪些 促销 商品 没有 销售 出 去 。 

为 确定 当前 促销 的 产品 中 哪些 尚未 卖 出 ， 需 要 两 步 过 程 : oc, A 
询 促 销 无 事实 的 事实 表 ， 确 定 给 定时 间 内 促销 的 产品 。 然 后 从 销售 事实 
表 中 确定 哪些 产品 已 经 卖 出 去 了 。 答 案 就 是 上 述 两 个 列表 的 差 集 。 这 样 
的 促销 范围 事实 表 只 是 用 来 说 明 促销 活动 的 范围 ， 其 中 没有 任何 事实 让 
量 。 可 能 有 读者 会 想 ， 建 立 一 个 单独 的 促销 商品 维度 表 能 售 达 到 同样 的 
效果 呢 ? 促销 无 事实 的 事实 表 包 含 多 个 维度 的 主键 ， 可 以 是 日 期 、 产 
品 、 商 店 、 促 销 等 ， 将 这 些 键 作为 促销 商品 的 属性 是 不 合适 的 ， 因 为 每 










































































个 维度 都 有 自己 的 属性 集合 。 


促销 无 事实 的 事实 表 看 起 来 与 销售 事实 表 相 似 。 然 而 ， 它 们 的 粒度 
存在 显著 兰 别 。 假 设 促销 是 以 一 周 为 持续 期 ， 在 促销 范围 事实 表 中 ， 将 
为 每 周 每 个 商店 中 促销 的 产品 加 载 一行 ， 无 论 产 品 是 否 卖 出 。 该 事实 表 
能 够 确保 看 到 被 促销 定义 的 键 之 间 的 关系 ， 而 与 其 他 事件 ， 如 产品 销售 
TER 

下 面 以 销售 订单 数据 仓库 为 例 ， 说 明 如 何 处 理 源 数据 中 没有 上 度量 的 
需求 。 我 们 将 建立 一 个 无 事实 的 事实 表 ， 用 来 统计 每 天 发 布 的 新 产品 数 
量 。 产 品 源 数 据 不 包含 产品 数量 信息 ， 如 采 系 统 需要 得 到 历史 有 茶 一 天 新 
增产 品 的 数量 ， 很 显然 不 能 简单 地 从 数据 仓库 中 得 到 。 这 时 就 要 用 到 无 
事实 的 事实 表 撤 术 。 使 用 此 技术 可 以 通过 持续 跟踪 产品 发 布 事件 来 计算 
产品 的 数量 。 可 以 创建 一 个 只 有 产品 〈 计 什么 数 ) 和 日 期 〈 什 么 时 候 计 
BO 维度 代理 键 的 事实 表 。 之 所 以 叫做 无 事实 的 事实 表 是 因为 表 本 里 并 
没有 数字 型 度量 值 。 这 里 定义 的 新 增产 品 是 指 在 某 一 给 定 日 期 ， 源 产品 
表 中 新 插入 的 产品 记录 ， 不 包括 由 于 SCD2 新 增 的 产品 版 本 记录 。 注 
意 ， 单 从 这 个 简单 需求 来 看 ， 也 可 以 通过 碍 询 产品 维度 表 获 取 结果 。 这 
里 只 为 演示 无 事实 的 事实 表 的 实现 过 程 。 


1. 建立 新 产品 发 布 的 无 事实 的 事实 表 


在 数据 仓库 模式 中 新 建 一 个 产品 发 布 的 无 事实 的 事实 表 
product_count_fact， 该 表 中 只 包含 两 个 字段 ， 分 别 是 引用 日 期 维度 表 和 
产品 维度 表 的 外 键 ， 同 时 这 两 个 字段 也 构成 了 无 事实 事实 表 的 逻辑 主 
键 。 图 11-3 显 示 了 跟踪 产品 发 布 数量 的 数据 仓库 模式 (只 显示 与 无 事实 
的 事实 表 相 关 的 表 ) 。 







































































图 11-3 无 事实 的 事实 表 


执行 下 面 的 脚本 在 数据 仓库 模式 中 创建 产品 发 布 日 期 视图 及 其 无 事 








product launch date sk int 


说 明 : 


。 与 之 前 创建 的 很 多 日 期 角色 扮演 维度 不 同 ， 产 品 发 布 日 期 视图 只 
获取 产品 生效 日 期 ， 而 不 是 日 期 维度 里 的 所 有 记录 。 因 此 在 定义 
视图 的 查询 语句 中 关联 了 产品 维度 和 日 期 维度 两 个 表 。 
product_launch_date_dim 维 度 表 是 日 期 维度 表 的 子 集 。 

从 字段 定义 上 看 ， 产 品 维度 表 中 的 生效 日 期 明显 就 是 新 产品 的 发 
布 日 期 。 

在 本 示例 中 ， 无 事实 的 事实 表 的 数据 装载 没有 行 级 更 新 需求 ， 所 
以 该 表 使 用 Hive 默 认 的 文本 存储 格式 。 


2. 初始 装载 无 事实 的 事实 表 


下 面 的 脚本 从 产品 维度 表 向 无 事实 的 事实 表 装 载 已 有 的 产品 发 布 信 
恩 。 脚 本 里 的 insert 语 名 添加 所 有 产品 的 第 一 个 版 本 ， 即 产品 的 首次 发 
布 日 期 。 这 里 使 用 Hive 的 窗口 函数 row_number 正 确 地 选取 了 产品 发 布 时 
的 生效 日 期 ， 而 不 是 一 个 SCD2 行 的 生效 日 期 。 

















insert 


overwrite table 


product count fact 
select 





说 明 : 





。 子 查询 中 内 连接 产品 维度 与 日 期 维度 表 ， 只 获取 产品 发 布 的 日 
期 。 

以 产品 编码 分 区 ， 同 一 个 产品 编码 的 多 个 版 本 以 发 布 日 期 排序 ， 
row_number0 函 数 为 每 个 版 本 分 配 序号 ， 起 别名 rn。 

外 层 碍 询 以 m=1 作 为 过 滤 和 条件， 得 到 每 个 产品 及 其 首次 发 布 日 期 
的 代理 键 。 
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其 实 利 用 产品 维度 表 的 版 本 字段 ， 更 简单 的 写法 如 下 : 


insert 











overwrite table 


product count fact 
select 


a.product sk product sk, 
b.date sk date sk 
from 


product dim a,date dim b 
where 


a.effective date - b.date and 


a.version - 1; 


3. 修改 定期 疼 载 脚本 


修改 了 数据 仓库 模式 后 ， 还 需要 针对 性 地 修改 定期 装载 脚本 。 该 脚 
本 在 处 理 产 品 维度 表 后 增加 了 装载 product_count_fact 表 的 语句 。 下 面 显 
示 了 修改 后 的 定期 装载 脚本 〈 只 列 出 了 修改 的 部 分 ) 。 


-- 设置 环境 与 时 间 窗 口 
-- 装载 customer 维 度 ... 


-- 装载 product 维 度 

-- 设置 已 删除 记录 和 product_name、product_category 列 上 SCD2 的 过 期 ... 
-- 处 理 product_name、product_category 列 上 SCD2 的 新 增 行 ... 

- - 处 理 新 增 的 product 记 录 

drop table if exists 


























tmp; 
create table 


tmp as 


select 


row number() 


over (order by 


ti.product code) + t2.sk max product sk, 
ti.product code product code, 
ti.product name product name, 
ti.product category product category, 
1 version, 


$(hivevar:pre date) effective date, 
$(hivevar:max date) expiry date 
from 


(select 


t1.* from 


rds.product t1 
left join 


product dim t2 on 


ti.product code = t2.product code 
where 


t2.product sk is null 


) ti 
cross join 


(select coalesce(max 


(product sk),0) sk max from 


product dim) t2; 


insert into 


product dim 
select 


product sk, 
product code, 
product name, 
product category, 
version, 
effective date, 
expiry date 

from 


tmp; 


insert into 


product count fact 
select 


product sk, date sk 
from 


tmp, 
(select 


date sk from 


dw.date dim where date 


= ${hivevar:pre_date}) t; 


- 装载 销售 订单 事实 表 
-- 前 一 天 新 增 的 销售 订单 
-- 更 新 分 配 库房 、 打包 、 配送 、 收 货 4 种 订单 状态 的 时 间 代 理 键 和 度量 
-- RpaZP EH . 

- 更 新 时 间 截 表 的 last_1oad 字 段 e" 


Vi 8j: 








处 理 新 增产 品 记 录 时 使 用 了 一 个 临时 表 ， 目 的 是 在 后 续 装 载 数据 
时 不 用 再 重复 执行 复杂 的 多 表 查 询 。 

临时 表 的 结构 与 产品 维度 表 完 全 一 致 ， 存 储 的 是 本 次 装载 新 增 的 
产品 信息 ， 包 括 了 代理 键 、 版 本 号 、 生 效 日 期 和 过 期 日 期 ， 因 此 
只 需要 将 临时 表 的 数据 装载 到 产品 维度 表 中 。 

装载 产品 发 布 事实 表 时 ， 先 用 一 个 子 查 询 取 得 唯一 的 日 期 代理 

键 ， 然 后 与 临时 表 笛 卡 尔 连接 ， 将 结果 集中 的 新 增产 品 代理 键 和 
日 期 代理 键 插入 无 事实 的 事实 表 中 。 


4. 测试 定期 装载 














(1) 修改 源 数 据 库 的 产品 表 数 据 ， 具 体 做 两 点 修改 : 新 增 一 个 产 
fo: 更 改 一 个 已 有 产品 的 名 称 

(2) 执行 定期 装载 脚本 。 

(3) 上 一 步 执 行 成 功 后 ， 查 询 产 品 发 布 无 事实 的 事实 表 ， 确 认定 
期 装载 执行 正确 。 此 时 的 结果 应 该 只 是 增加 了 一 条 新 产品 记录 ， 原 有 数 
据 没 有 变化 。 

无 事实 的 事实 表 是 没有 任何 度量 的 事实 表 ， 它 本 质 上 是 一 组 维度 的 
交集 。 用 这 种 事实 表 记 录 相 关 维 度 之 间 存 在 多 对 多 关系 ， 但 是 关系 上 没 


























有 数字 或 者 文本 的 事实 。 无 事实 的 事实 表 为 数据 仓库 设计 提供 了 更 多 的 
灵活 性 。 再 次 考虑 学 生 上 谍 的 应 用 场景 ， 使 用 一 个 由 学 生 、 时 间 、 课 程 
三 个 维度 键 组 成 的 无 事实 的 事实 表 ， 可 以 很 容易 地 回答 如 下 问题 : 








。 有 多 少 学 生 在 茶 天 上 了 给 定 的 一 门 谍 程 ? 
e 在 某 段 时 间 里 ， 一 名 给 定 学 生 每 天 所 上 课程 的 平均 数 是 多 少 ? 


11.5 人 述 到 的 事实 


数据 仓库 通 第 建立 于 一 种 理想 的 假设 情况 下 ， 这 就 是 数据 仓库 的 度 
E (事实 记录 ) 与 度量 的 环境 (维度 记录 ) 同时 出 现在 数据 仓库 中 。 当 
同时 拥有 事实 记录 和 正确 的 当前 维度 行 时 ， 就 能 够 从 容 地 首先 维 护 维度 
键 ， 然 后 在 对 应 的 事实 表 行 中 使 用 这 些 最 新 的 键 。 然 而 ， 各 种 各 样 的 原 
因 会 导致 需要 ETL 系 统 处 理 述 到 的 事实 数据 。 例 如 ， 茶 些 线 下 的 业务 ， 
数据 进入 操作 型 系统 的 时 间 会 滞后 于 事务 发 生 的 时 间 。 再 或 者 出 现 东 些 
极端 情况 ， 如 源 数据 库 系 统 出 现 故障 ， 和 下 到 恢复 后 才能 补 上 故障 期 间 产 
生 的 数据 。 


在 销售 订单 示例 中 ， 晚 于 订单 日 期 进入 源 数据 的 销售 订单 可 以 看 作 
古 一 个 迟到 事实 的 例子 。 销 售 订单 数据 被 装载 进 其 对 应 的 事实 表 时 ， 效 
载 日 期 晚 于 销售 订单 产生 的 日 期 ， 因 此 是 一 个 迟到 的 事实 。 本 例 中 因为 
定期 装载 的 是 前 一 天 的 数据 ， 所 以 这 里 的 “上 晚 于 ” 指 的 是 事务 数据 延迟 两 
天 及 其 以 上 才 到 达 ETL 系 统 。 

必须 对 标准 的 ETL 过程 进行 特殊 修改 以 处 理 述 到 的 事实 。 首 先 ， 妆 
迟到 度量 事件 出 现时 ， 不 得 不 反问 搜索 维度 表 历 史记 录 ， 以 确定 事务 友 
生 时 间 点 的 有 效 的 维度 代理 键 ， 因 为 当前 的 维度 内 容 无 法 匹配 输入 行 的 
情况 。 此 外 ， 还 需要 调整 后 续 事实 行 中 的 所 有 半 可 加 度量 ， 例 如 ， 由 于 
述 到 的 事实 导致 客户 当前 余额 的 改变 。 述 到 事实 可 能 还 会 引起 周期 快照 



































事实 表 的 数据 更 新 。 例 如 11.2 节 讨论 的 月 销售 周期 快照 表 ， 如 果 2016 年 
6 月 的 销售 订单 金额 已 经 计算 并 存储 在 month_end_sales_order _ fact 快照 表 
中 ， 这 时 一 个 迟到 的 6 月 订单 在 7 月 有 天 被 装载 ， 那 么 2016 年 6 月 的 快照 
金额 必须 因 迟 到 事实 而 重新 计算 。 


下 面 束 以 销售 订单 数据 仓库 为 例 ， 说 明 如 何 处 理 迟 到 的 事实 。 
1. 修改 数据 仓库 模式 


回忆 一 下 11.2 节 中 建立 的 月 销售 周期 快照 表 ， 其 数据 源 目 己 经 处 理 
过 的 销售 订单 事务 事实 表 。 因 此 为 了 确定 事实 表 中 的 一 条 销售 订单 记录 
是 否 是 迟到 的 ， 需 要 把 源 数据 中 的 登记 日 期 列 装载 进 销 售 订 单 事实 表 。 
为 此 要 在 销售 订单 事实 表 上 添加 登记 日 期 代理 键 列 。 为 了 获取 登记 日 期 
代理 键 的 值 ， 还 要 使 用 维度 角色 扮演 技术 添加 登记 日 期 维度 表 。 

执行 下 面 的 脚本 在 销售 订单 事实 表 里 添 加 名 为 entry_date_sk 的 日 期 
代理 键 列 ， 并 且 从 日 期 维度 表 创 建 一 个 叫做 entry_date_dim 的 数据 库 视 
图 。 




















use 

















dw; 
-- 在 事务 事实 表 中 添加 登记 日 期 代理 键 列 
alter table 








sales order fact rename to 


sales order fact old; 
create table 


sales order fact 


( 


order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
customer zip code sk int comment 


'customer zip code SK', 
shipping zip code sk int comment 


'shipping zip code SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 
entry date sk int comment 'entry date SK', 


allocate date sk int comment 


'allocate date SK', 


allocate quantity int comment 


'allocate quantity', 
packing date sk int comment 


'packing date SK', 
packing quantity int comment 


'packing quantity', 
ship date sk int comment 


'ship date SK', 
ship quantity int comment 


'ship quantity', 
receive date sk int comment 


'receive date SK', 
receive quantity int comment 


'receive quantity', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity' 


) 
clustered by 
(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


sales order fact 
select 


order number, 
customer sk, 
customer zip code sk, 
shipping zip code sk, 
product sk, 
sales order attribute sk, 
order date sk, 
null, 








allocate date sk, 
allocate quantity, 
packing date sk, 

packing quantity, 


ship date sk, 
ship quantity, 
receive date sk, 
receive quantity, 
request delivery date sk, 
order amount, 
order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 





-- 建立 登记 日 期 维度 视图 
create view 





entry date dim 
(entry date sk, entry date, month name, month 


, quarter, year 


select 


date sk, date 


, month name, month 


, quarter, year 


from 


date dim; 


修改 销售 订单 定期 装载 脚本 


在 创建 了 登记 日 期 维度 视图 ， 并 给 销售 订单 事实 表 添 加 了 登记 日 期 
代理 键 列 以 后 ， 需 要 修改 数据 仓库 定期 装载 脚本 来 装载 登记 日 期 。 
显示 了 修改 后 的 regular_etl.sql 定 期 装载 脚本 (只 ARET E 
意 sales_order 源 数据 表 及 其 对 应 的 过 渡 表 中 都 已 经 含有 登记 日 期 ， ER 
以 前 没有 将 其 装载 进 数 据 仓库 。 

-- 设置 环境 与 时 间 窗 口 ... 
-- 装载 customer 维 度 ... 


-- 装载 product 维 度 ... 
-- 装载 新 产品 发 布 无 事实 的 事实 表 ,,， 


-- BUE RSS 
-- 前 一 天 新 增 的 销售 订单 


insert into 




















sales order fact 
select 


a.order number, 
c.customer sk, 
i.customer zip. code sk, 
j.shipping zip code sk, 
d.product sk, 








g.sales order attribute sk, 
e.order date sk, 
h.entry date sk, 


null, null, null, null, null, null, null, null, 


f.request delivery date sk, 
order amount, 
quantity 

from 


rds.sales order a, 
customer dim c, 
product dim d, 
order date dim e, 
request delivery date dim f, 
sales order attribute dim g, 
customer zip code dim i, 
shipping zip code dim j, 
entry date dim h, 








rds.customer k, 
rds.cdc time 1 
where 


a.order status = 'N' 
and 


a.customer number - c.customer number 
and 


a.status date »- c.effective date 
and 


a.status date « c.expiry date 
and 


a.customer number - k.customer number 
and 


k.customer zip code - i.customer zip code 
and 


a.status date »- i.effective date 
and 


a.status date «- i.expiry date 
and 


k.shipping zip code - j.shipping zip code 
and 


a.status date »- j.effective date 
and 


a.status date «- j.expiry date 
and 


a.product code - d.product code 


and 


a.status date »- d.effective date 
and 


a.status date « d.expiry date 
and to date 


(a.status date) - e.order date 
and to date(a.entry date) - h.entry date 


and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date « l.current load ; 


-- 更 新 分 配 库房 、 打 包 、 配 送 、 收 货 4 种 订单 状态 的 时 间 代 理 键 和 上 度量， 
- 也 要 加 上 entry_date sk/i 














-- 重 载 pa 客户 维度 ... 
- 更 新 时 间 稚 表 的 last_load 字 段 ... 
本 节 开 头 曾 经 提 到 ， 需 要 为 迟到 的 事实 行 获取 事务 发 生 时 间 点 的 有 
效 的 维度 代理 键 。 在 装载 脚本 中 使 用 销售 订单 过 渡 表 的 状态 日 期 字段 限 
定 当 时 的 维度 代理 键 。 例 如 ， 为 了 获取 事务 发 生 时 的 客户 代理 键 ， 沛 选 
条 件 为 : 


status date >= customer dim.effective date 
and 





status date < customer dim.expiry date 





之 所 以 可 以 这 样 做 ， 原 因 在 于 本 示例 满足 以 下 两 个 前 提 条 件 ， 在 最 
初 源 数 据 库 的 销售 订单 表 中 ，status_date 存 储 的 是 状态 发 生 时 的 时 间 ; 
维度 的 生效 时 间 与 过 期 时 间 构 成 一 条 连续 且 不 重 登 的 时 间 轴 ， 任 意 
status_date 日 期 只 能 落 到 唯一 的 生效 时 间 、 过 期 时 间 区 间 内 。 


3. 修改 装载 月 销售 周期 快照 事实 表 脚 本 


11.2 市 创建 的 month_sum.sql 脚 本 文件 用 于 装载 月 销售 周期 快照 事实 
表 。 迟 到 的 事实 记录 会 对 周期 快照 中 已 经 生成 的 月 销售 汇总 数据 产生 影 








啊 ， 因 此 必须 做 适当 的 修改 。 

月 销售 周期 快照 表 存 储 的 是 茶 月 菏 产 品 汇 总 的 销售 数量 和 销售 金 
额 ， 表 中 有 月 份 代理 键 、 产 品 代理 键 、 销 售 金额 、 销 售 数量 4 个 字段 。 
由 于 迟到 事实 的 出 现 ， 需 要 将 事务 事实 表 中 的 数据 划分 为 三 类 : ARIE 2 
的 事实 记录 ; 人 述 到 的 事实 ， 但 周期 快照 表 中 尚 不 存在 相关 记录 ; 迟到 的 
事实 ， 并 且 周 期 快照 表 中 已经 存在 相关 记录 。 对 这 三 类 事实 数据 的 处 理 
逻辑 各 不 相同 ， 前 两 类 数据 需要 汇总 后 插入 快照 表 ， 而 第 三 种 情况 需要 
更 新 快照 表 中 的 现 有 数据 。 下 面 我 们 对 修改 后 的 month_sum.sql 文 件 分 解 
说 明 。 

-设置 变量 以 支持 事务 


set 



































hive.support.concurrency-true 


, 
set 


hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanager 
set 


hive.compactor.initiator.on-true 


, 
set 


hive.compactor.worker.threads-1; 


use 


dw; 
set 


hivevar:pre month date - add months(current date 


y=) 


开始 部 分 很 简单 ， 只 是 设置 文 持 事务 的 环境 ， 并 将 上 月 的 茶 个 给 定 
日 期 赋值 给 一 个 变量 。 





drop table if exists tmp; 
create table tmp as 
select a.order month sk order month sk, 
a.product sk product sk, 
a.month order amount + b.order amount month order amount 
a.month order quantity + b.order quantity month order qu 
from month end sales order fact a, 


(select 


from 


where 
and 
and 
and 
and 


d.month sk month sk, 

a.product sk product sk, 

sum(order amount) order amount, 
sum(order quantity) order quantity 
sales order fact a, 

order date dim b, 

entry date dim c, 

month dim d 

a.order date sk - b.order date sk 
a.entry date sk - c.entry date sk 
c.month = month($(hivevar:pre month date?) 
c.year = year($(hivevar:pre month date)) 
b.month = d.month 


and b.year - d.year 
and b.order date «» c.entry date 
group by d.month sk , a.product sk) b 
where a.product sk - b.product sk 
and a.order month sk - b.month sk; 


delete from month end sales order fact 
where exists 
(select 1 
from tmp t2 
where month end sales order fact.order month sk - t2.order mo 
and month end sales order fact.product sk - t2.product sk); 


insert into month end sales order fact select * from tmp; 


按 事 务 发 生 时 间 的 先后 顺序 ， 我 们 先 处 理 第 三 种 情况 。 为 了 更 新 周 
期 快照 表 数 据 ， 需 要 创建 一 个 临时 表 。 子 查询 用 于 从 销售 订单 事实 表 中 
获取 所 有 上 个 月 录入 的 ， 并 且 是 迟到 的 数据 行 的 汇总 ， 用 b.order_date 
<> centry_date 作 为 判断 迟到 的 条 件 。 本 示例 中 实际 可 以 去 掉 这 条 判断 
语句 ， 因 为 只 有 人 述 到 事实 会 对 已 有 的 快照 数据 造成 影响 。 外 层 查 询 把 具 
有 相同 产品 代理 键 和 月 份 代理 键 的 迟到 事实 的 汇总 数据 加 到 已 有 的 快照 
数据 行 上 ， 临 时 表 中 存储 这 个 查询 的 结果 。 注 意 产品 代理 键 和 月 份 代理 
键 共同 构成 了 周期 快照 表 的 逻辑 主键 ， 可 以 唯一 标识 一 条 记录 ; 之 后 使 
用 先 删除 再 插入 的 方式 更 新 周期 快照 表 。 从 周期 快照 表 删 除数 据 的 操作 
也 是 以 逻辑 主键 匹配 作为 过 滤 条 件 。 

















insert into 


month end sales order fact 
select 


d.month sk, a.product sk, sum 


(order amount), sum 


(order quantity) 
from 


sales order fact a, 
order date dim b, 
entry date dim c, 


month dim d 


where 


a.order date sk 
and 


a.entry date sk 
and 


c.month 


= month 


b.order date sk 


c.entry date sk 


($(hivevar:pre month date]) 


and 


c.year 


= year 


(${hivevar:pre_month_date}) 


and 





p.product sk - a.product sk) 
group by 


d.month sk , a.product sk; 


上 面 这 条 语句 将 第 一 、 二 类 数据 统一 处 理 。 使 用 相关 子 查 询 获取 上 所 
有 上 个 月 新 录入 的 ， 并 且 在 周期 快照 事实 表 中 尚未 存在 的 产品 销售 月 汇 
忆 数 据 ， 插 入 到 周期 快照 表 中 。 销 售 订 单 事实 表 的 粒度 是 每 天 ， 而 周期 
快照 事实 表 的 粒度 是 每 月 ， 因 此 必须 使 用 订单 日 期 代理 键 对 应 的 月 份 代 
理 键 进行 比较 。 














4. 测试 


(1) 把 销售 订单 事实 表 的 entry_date_sk 字 段 修 改 为 order_date_sk 字 
段 的 值 。 这 些 登 记 日 期 键 是 后 面 测 试 月 快照 数据 装载 所 需要 的 。 


(20 在 执行 定期 装载 脚本 前 先 查 询 周 期 快照 事实 表 和 销售 订单 事 
实 表 。 之 后 可 以 对 比 “ 前 ”〈 不 包含 迟到 事实 )“ 后 ”包含 了 迟到 事实 ) 
的 数据 ， 以 确认 装载 的 正确 性 。 


(3) 准备 销售 订单 测试 数据 。 例 如 ， 可 以 在 销售 订单 源 数 据 表 中 
插入 三 个 新 的 订单 记录 ， 第 一 个 是 迟到 的 订单 ， 并 且 销 售 的 产品 在 周期 
快照 表 中 已经 存在 ; 第 二 个 也 是 迟到 的 订单 ， 但 销售 的 产品 在 周期 快照 
表 中 不 存在 ， 第 三 个 是 非 迟 到 的 正常 订单 。 这 里 需要 注意 ， 产 品 维度 是 
SCD2 处 理 的 ， 所 以 在 添加 销售 订单 源 数 据 时 ， 新 增订 单 时 间 一 定 要 在 
产品 维度 的 生效 与 过 期 时 间 区 间 内 。 


(4) 执行 新 的 月 周期 快照 数据 装载 脚本 前 ， 先 执行 每 天 定期 装载 
脚本 regular_etl.sh， 把 三 条 新 的 订单 数据 装载 进 事 务 事实 表 。 

(5) 执行 月 周期 快照 事实 表 装 载 脚本 month_sum.sql 装 载 快 照 数 
据 。 





(6) 执行 与 第 (20 SHIRA ARMS T OR SUSESERS H AH Bs 
汇总 数据 ， 对 比 “ 前 “后 ”但 询 的 结果 ， 确 认 数 据 装载 正确 。 


在 本 示例 中 ， 人 述 到 事实 对 月 周期 快照 表 数 据 的 影响 逻辑 并 不 是 很 复 

杂 。 当 人 逻辑 主键 ， 即 月 份 代理 键 和 产品 代理 键 的 组 合 匹 配 时 ， 将 从 销售 
订单 事实 表 中 获取 的 销售 数量 和 销售 金额 汇总 值 累加 到 月 周期 快照 表 对 
应 的 数据 行 上 ， 人 否则 将 新 的 汇总 数据 添加 到 月 周期 快照 表 中 。 这 个 逻辑 
非常 适合 使 用 merge into 语 句 ， 例 如 在 Oracle 中 ，month_sum.sql 文 件 可 以 
写成 如 下 的 样子 : 

declare 

pre_month_date date; 


monthi int; 
year1 int; 








begin 
select add months(sysdate,-1) into pre month date from dual; 
select extract(month from pre month date), 
extract(year from pre month date) 
into monthi1, yeart 
from dual; 


merge into month end sales order fact t1 
using (select d.month sk month sk, 
a.product sk product sk, 
sum(order amount) order amount, 
sum(order quantity) order quantity 
from sales order fact a, 
order date dim 
entry date dim 
month dim d 
where a.order date sk 
and a.entry date sk 
and c.month = monthi 
C 
b 


Oo 
~ ~ 


b.order date sk 
c.entry date sk 


and c.year = year1 
and b.month - d.month 
and b.year - d.year 
group by d.month sk , a.product sk) t2 
on ( tiíi.order month sk = t2.month sk 
and ti.product sk = t2.product sk) 
when matched then 
update set 
ti.month order amount = ti.month order amount + t2.0rder amou 


ti.month order quantity = ti.month order quantity + t2.order 
when not matched then 
insert 
(order month sk, product sk, month order amount, month order qua 
values 
(t2.month sk, t2.product sk, t2.order amount, t2.order qu 


commit; 


end; 
/ 


Hive 文 档 中 说 从 2.2 版 本 开始 支持 merge ”into 语 句 ， 但 似乎 还 是 计划 
中 ， 目 前 并 没有 实现 。 可 以 参考 
https://issues.apache.org/jira/browse/HIVE-10924 4) int AH « 
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统计 从 每 年 的 一 月 到 当前 月 份 的 累积 销售 额 。 本 节 说 明 如 何在 销售 订单 
示例 中 实现 累积 月 销售 数量 和 金额， 并 对 数据 仓库 模式 、 初 始 装 载 、 害 
期 装载 脚本 做 相应 的 修改 。 累 积 上 度量 是 半 可 加 的 ， 而 且 它 的 初始 装载 比 
前 面 实现 的 要 复杂 。 


1. 修改 模式 


建立 一 个 新 的 名 为 month_end_balance_fact 的 事实 表 ， 用 来 存储 销售 
订单 金额 和 数量 的 月 累积 值 。month_end balance_fact 表 在 模式 中 构成 了 
另 一 个 星 型 模式 。 新 的 星 型 模式 除了 包括 这 个 新 的 事实 表 ， 还 包括 两 个 
其 他 星 型 模式 中 已 有 的 维度 表 ， 即 产品 维度 表 与 月 份 维度 表 。 几 11-4 显 
示 了 新 的 模式 。 注 意 这 里 只 显示 了 相关 的 表 。 














图 11-4 ”累积 的 度量 


下 面 的 脚本 用 于 创建 month_end_balance fact 表 。 





month end quantity balance int 


); 





因为 对 此 事实 表 只 有 insert .select 操作 ， 没 有 update、delete 等 行 级 
更 新 需求 ， 所 以 这 里 没有 用 ORC 文 件 格式 ， 而 是 采用 了 默认 的 文本 存储 
格式 。 


2. YURE ER 


现在 要 把 month_end_sales_order fact 表 里 的 数据 装载 进 
month_end_balance_fact 表 ， 下 面 显 示 了 初始 装载 month_end_balance_fact 
表 的 脚本 。 此 脚本 装载 累积 的 月 销售 订单 汇总 数据 ， 从 每 年 的 一 月 累积 
到 当月 ， 累 积 数据 不 跨 年 。 


use 





dw; 
insert 


overwrite table 


month end balance fact 
select 


a.month sk, 
b.product sk, 
sum 


(b.month order amount) month order amount, 
sum 


(b.month order quantity) month order quantity 
from 


month dim a, 
(select 


b.year 


b.month 


max 


(a.order month sk) over () max month sk 
from 


month end sales order fact a, month dim b 
where 


a.order month sk - b.month sk) b 
where 


a.month sk «- b.max month sk 
and 


a.year 


= b.year and 


b.month 


«- a.month 


group by 


a.month sk , b.product sk; 


子 查 询 获 取 month_end_sales_order fact 表 的 数据 ， 及 其 年 月 和 最 大 
月 份 代理 键 。 外 层 查 询 汇 总 每 年 一 月 到 当月 的 累积 销售 数据 ， 
a.month_sk <= b.max_month_sk 条 件 用 于 限定 只 统计 到 现存 的 最 大 月 份 为 
AE: 


在 关系 数据 库 中 ， 出 于 性 能 方面 的 考虑 ， 此 类 需求 往往 使 用 自 连 接 
查询 方法 ， 而 不 用 这 种 子 查 询 的 方式 。 但 是 在 Hive 中 ， 子 查询 是 唯一 的 
选择 ， 原 因 有 两 个 : 第 一 ，Hive 中 两 个 表 join 连 接 时 ， 不 文 持 关联 字段 
的 非 相 等 操作 ， 而 累积 度量 需求 显然 需要 类 似 <= 的 比较 条 件 ， 当 join 中 
有 非 相 等 操作 时 ， 会 报 “Both left and right aliases encountered in JOIN 
.2 错误 。 第 二 ， 如 果 是 内 连接 ， 我 们 可 以 将 <= 比 较 放 到 where 子 句 中 ， 
避 开 Hive 的 限制 。 但 是 这 不 适合 累积 度量 的 场景 。 假 设 有 产品 1 在 一 月 
有 销售 ， 二 月 没有 销售 ， 那 么 产品 1 在 二 月 的 累积 销售 值 应 该 从 一 月 继 























承 。 而 如 果 使 用 内 连接 ， 用 a.product_sk=b.product_sk 做 连接 条 件 ， 会 过 
滤 挥 产品 1 在 二 月 的 囚 积 数据 行 ， 这 显然 是 不 合理 的 。 

为 了 确认 初始 装载 是 否 正确 ， 在 执行 完 初 始 装 载 脚本 后 ， 分 别 碍 询 
month end sales order factfllmonth end balance_fact 表 ， 我 们 示例 的 碍 
询 语句 和 结果 如 下 所 示 。 


可 以 看 到 ，2016 年 6 月 的 商品 销售 金额 和 数量 被 累积 到 了 2016 年 7 
月 。 产 品 1 和 2 累加 了 6、7 两 个 月 的 销售 数据 ， 产 品 3 在 7 月 没有 销售 ， 所 
以 6 月 的 销售 数据 顺延 到 7 月 ， 产 品 4 和 5 只 有 7 月 有 销售 。 


3. 定期 装载 





下 面 所 示 的 month_balance_sum.sql 脚 本 用 于 定期 装载 销售 订单 累积 
上 度量， 每 个 月 执行 一 次 ， 装 载 上 个 月 的 数据 。 可 以 在 执行 完 月 周期 快照 
表 定 期 装载 后 执行 该 脚本 。 


- -设置 变量 以 支持 事务 
set 














hive.support.concurrency-true 


/ 
set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanager 
set 


hive.compactor.initiator.on-true 


/ 
set 


hive.compactor.worker.threads-1; 


use 








b.month 


- $(hivevar:month 


union all 


select 


month sk + 1 order month sk, 
product sk product sk, 
month end amount balance month order amount, 
month end quantity balance month order quantity 
from 


month end balance fact a 
where 


a.month sk in 
(select max(case when 


${hivevar :month 


0 else 


month sk end 


from 


month end balance fact)) t 
group by 


order month sk, product sk; 
子 查 询 将 累积 度量 表 和 月 周期 快照 表 做 并 集 操作 ， 增 加 上 月 的 累积 
数据 。 最 外 层 碍 询 执行 销售 数据 按 月 和 产品 的 分 组 聚合 。 最 内 层 的 case 
语句 用 于 在 每 年 一 月 时 重新 归 零 再 累积 。 














4. 测试 定期 疼 载 


使 用 下 面 步骤 测试 非 1 月 的 装载 : 
(1) 执行 下 面 的 命令 向 month_end_sales_order_fact 表 添加 两 条 记 





Ko 
insert into 
dw.month_end_sales_order_fact 
values 


(200,1,1000,10), (200, 6, 1000, 10) ; 


(2) 设置 时 间 ， 将 set hivevar:pre_month_date 
add_months(current_date,-1); 行 改 为 set hivevar:pre_month_date 


current date; 装载 2016 年 8 月 的 数据 。 
(3) 执行 定期 装载 。 


beeline -u jdbc:hive2://cdh2:10000/dw -f month balance sum.sql 





(4) 查询 month_end_balance fact 表 ， 确 认 累 积 度 量 数据 装载 正 
确 。 


使 用 下 面 步 又 测试 1 月 的 装载 : 


(1) 使 用 下 面 的 命令 向 month_end_sales_order_fact 表 添加 两 条 记 
录 ，month_sk 的 值 是 205， 指 的 是 2017 年 1 月 。 





insert into 


dw.month end sales order fact values 


(205,1,1000,10); 
insert into 


dw.month end sales order fact values 


(205, 6, 1000, 10) ; 


(2) 使 用 下 面 的 命令 向 month_end_balance_fact 表 添加 三 条 记录 。 


insert into 


dw.month end balance fact values 


(204,1,1000,10); 
insert into 


dw.month end balance fact values 


(204,6,1000,10); 
insert into 


dw.month end balance fact values 


(204,3,1000, 10); 


(3) 将 set hivevar:pre month date = add months(current. date,-1);1T 
改 为 set hivevar:pre month date = add_months('2017-02-01',-1);, 484% 
2017 年 1 月 的 数据 。 


(4) 执行 定期 装载 。 


beeline -u jdbc:hive2://cdh2:10000/dw -f month balance sum.sql 





(5) 查询 month_end_balance fact 表 ， 确 认 累 积 度 量 数据 装载 正 
确 。 


测试 完成 后 ， 执 行 下 面 的 语句 删除 测试 数据 。 


delete from 


dw.month end sales order fact where 


order month sk >=200; 
insert 


overwrite table 


month end balance fact 
select * from 


month end balance fact where 


month sk « 200; 


5. 查询 


球 积 度量 必须 要 小 心 使 用 ， 因 为 它 是 “ 半 可 加 ”的 。 一 个 兴 可 加 度量 
在 茶 些 维度 〈 通 常 是 时 间 维 度 ) 上 是 不 可 加 的 。 例 如 ， 可 以 通过 产品 正 
确 地 累加 月 底 累 积 销售 金额 。 





select product name, sum(month end amount balance) s 
from month end balance fact a, 
product dim b 
where a.product sk - b.product sk 
group by product name; 





二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4--------- +--+ 
| product_name S | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 +--+ 
| Flat Panel 45290 | 
| Floppy Drive oTov 
| Hard Disk Drive 111965 | 
| Keyboard 46082 | 
| LCD Panel 9890 | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 +--+ 
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select year, month, sum(month end amount balance) s 
from month end balance fact a, 
month dim b 
where a.month sk - b.month sk 
group by year, month 
cluster by year, month; 


+ 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 +--+ 
| year | month | S | 
4------- 二 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 +--+ 
122016. ||) %6 | 88979 | 
ZOE 6 T 152291825. | 
+ 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 4------ 十 一 一 十 一 一 十 


以 上 查询 结果 是 错误 的 。 正 确 的 结果 应 该 和 下 面 的 在 
month_end_sales_order fact 表 上 进行 的 查询 结果 相同 。 


select product name, sum(month order amount) s 
from month end sales order fact a, 
product dim b 
where a.product sk - b.product sk 
group by product name; 








十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 十 
| product name | S | 
4------------------ 4--------- 十 一 一 十 
| Flat Panel 45290 | 
| Floppy Drive 112517 || 
| Hard Disk Drive 82991 | 
| Keyboard 46082 | 
| LCD Panel 4945 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4--------- 十 一 一 十 


11.7. 2 


C1) 事务 事实 表 、 周 期 快照 事实 表 和 办 积 快照 事实 表 是 多 维 数据 
仓库 中 常见 的 三 种 事实 表 。 定 期 历史 数据 可 以 通过 周期 快照 获取 ， 细 市 
数据 被 保存 到 事务 粒度 事实 表 中 ， 而 对 于 具有 多 个 定义 民 好 里 程 碑 的 处 
理工 作 流 ， 则 可 以 使 用 累积 快照 。 


(2) 无 事实 的 事实 表 是 没有 任何 度量 的 事实 表 ， 它 本 质 上 是 一 组 
维度 的 交集 。 用 这 种 事实 表 记 录 相 关 维 度 之 间 存 在 多 对 多 关系 ， 但 是 关 
系 上 没有 数字 或 者 文本 的 事实 。 无 事实 的 事实 表 为 数据 仓库 设计 提供 了 






































更 多 的 灵活 性 。 


(3) 迟到 的 事实 指 的 是 到 达 ETL 系 统 的 时 间 晚 于 事务 发 生 时 间 的 
度量 数据 。 es qn "t 
要 确定 事务 发 生 时 间 点 的 有 效 的 维度 代理 键 ， 还 要 调整 后 续 事 实行 中 的 
所 有 半 可 加 度量 。 此 外 ， 捞 到 的 事实 可 和 全 serrata 
据 更 新 。 


(4) 趟 积 度量 指 的 是 聚合 从 序列 内 第 一 个 元 素 到 当前 元 象 的 数 
据 。 味 积 度量 是 半 可 加 的 ， 因 此 对 累积 度量 执行 聚合 计算 时 要 格外 注意 
分 组 的 维度 。 
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前 面 两 章 通 过 实例 演示 了 常见 的 维度 表 和 事实 表 技 术 ， 主 要 目的 是 
为 了 说 明 Hadoop 及 其 生态 圈 工 具 ， 如 Sqoop、Hive、Oozie 等 ， 完 全 有 能 
力 处 理 传统 多 维 数据 仓库 中 人 碰 到 的 各 种 情况 。 但 是 ， 从 完整 的 数据 仓库 
生命 周期 角度 看 ， 还 有 很 重要 的 一 部 分 没有 涉及 ， 那 就 是 数据 分 析 与 结 
果 展 示 。 我 们 将 在 本 书 的 最 后 两 章 分 别 讨论 这 两 方面 的 问题 。 

本 章 介 绍 联机 分 析 处 理 的 概念 ， 以 及 CDH 的 数据 分 析 工 具 Impala， 
然后 对 比 Hive、SparkSQL、Impala 这 三 种 Hadoop ”SQL 人 解决 方案 在 用 于 
数据 分 析 场 景 时 ， 功 能 与 性 能 上 的 各 自 特 点 。 除 了 概念 化 的 说 明 ， 我 们 
还 会 结合 销售 订单 示例 ， 列 举 典 型 的 数据 分 析 问 题 ， 并 使 用 Impala 工 具 
具体 实现 。 本 章 最 后 简 述 Apache Kylin 项 目 ， 这 是 由 中 国 工程 师 自主 研 
发 的 一 个 Hadoop 上 的 联机 分 析 处 理 组 件 。 














12.1 联机 分 析 处 理 简 介 
12.1.1 概念 


联机 分 析 处 理 又 被 称 为 OLAP， 是 瑞 文 On-Line Analytical Processing 
的 缩写 。 此 概念 最 早 由 关系 数据 库 之 父 E.F.Codd 于 1993 年 提出 ， 至 今 已 
有 20 多 年 。OLAP 人 允许 以 一 种 称 为 多 维 数据 集 的 结构 ， 访 问 业 务 数据 源 
经 过 聚合 和 组 织 整 理 后 的 数据 。 以 此 为 标准 ，OLAP 作 为 单独 的 一 类 技 
术 同 联机 事务 处 理 (On-Line Transaction Processing，OLTP) 得 以 明显 
区 分 。 


在 计算 领域 ，OLAP 是 一 种 快速 应 答 多 维 分 析 碍 询 的 方法 ， 也 是 丙 
业 智 能 的 一 个 组 成 部 分 ， 与 之 相关 的 概念 还 包括 数据 仓库 、 报 表 系 统 、 
数据 挖掘 等 。 数 据 仓 库 用 于 数据 的 存储 和 组 织 ，OLAP 集 中 于 数据 的 分 
析 ， 数 据 挖掘 则 致力 于 知识 的 自动 发 现 ， 报 表 系 统 则 侧重 于 数据 的 展 
现 。OLAP 系 统 从 数据 仓库 中 的 集成 数据 出 发 ， 构 建 面 癌 分 析 的 多 维 数 
据 模型 ， 再 使 用 多 维 分 析 方 法 从 多 个 不 同 的 视角 对 多 维 数据 集合 进行 分 
析 比 较 ， 分 析 活 动 以 数据 驱动 。 通 过 使 用 OLAP 工 具 ， 用 户 可 以 从 多 个 
视角 交互 式 地 查询 多 维 数据 。 

OLAP 由 三 个 基本 的 分 析 操 作 构 成 : 合并 《〈 上 卷 ) 、 下 钻 和 切 卢 。 
合并 是 指数 据 的 聚合 ， 即 数据 可 以 在 一 个 或 多 个 维度 上 进行 累积 和 计 
算 。 例 如 ， 所 有 的 营业 部 数据 被 上 卷 到 销售 部 门 以 分 析 销 售 趋势 。 下 钻 
是 一 种 由 汇总 数据 向 下 浏览 细节 数据 的 技术 。 比 如 用 户 可 以 从 产品 分 类 
的 销售 数据 下 钼 查看 单个 产品 的 销售 情况 。 切 片 则 是 这 样 一 种 特性 ， 通 
过 它 用 户 可 以 获取 OLAP 立 方 体 中 的 特定 数据 集合 ， 并 从 不 同 的 视角 观 
察 这 些 数据 。 这 些 观 罕 数 据 的 视角 束 是 我 们 所 说 的 维度 。 例 如 通过 经 销 
商 、 日期、 客户 、 产 品 或 区 域 等 ， 查 看 同一 销售 事实 。 

OLAP 系 统 的 核心 是 OLAP 立 方 体 ， 或 称 为 多 维 立 方 体 或 超 立 方 
体 。 它 由 被 称 为 度量 的 数值 事实 组 成 ， 这 些 度量 被 维度 划分 归 类 。 一 个 
OLAP 立 方 体 的 例子 如 图 12-1 所 示 ， 数 据 单 元 位 于 立方 体 的 交叉 点 上 ， 
每 个 数据 单元 跨越 产品 、 时 间 、 地 区 等 多 个 维度 。 通 常 使 用 一 个 矩阵 接 
口 操 作 OLAP 立 方 体 ， 例 如 电子 表格 程序 的 数据 透视 表 ， 可 以 按 维 度 分 
组 执行 聚合 或 求 平 均值 等 操作 。 立 方 体 的 元 数据 一 般 由 关系 数据 库 中 的 
星 型 模式 或 雪花 模式 生成 ， 度 量 来 自 事 实 表 的 记录 ， 维 度 来 自 维度 表 。 









































时 间 
图 12-1 OLAP 立 方 体 


12.1.2 分 类 


通常 可 以 将 联机 分 析 处 理 系统 分 为 MOLAP、ROLAP、HOLAP 三 种 


1. MOLAP 


MOLAP (multi-dimensional online analytical processing) 是 一 种 典 
型 的 OLAP 形 式 ， 甚 至 有 时 就 被 用 来 表示 OLAP。MOLAP 将 数据 存储 在 
一 个 经 过 优化 的 多 维 数组 中 ， 而 不 是 存储 在 关系 数据 库 中 。 某 些 
MOLAP 工 具 要 求 预先 计算 并 存储 计算 后 的 结 末 数据 ， 这 种 操作 方式 被 
称 为 预 处 理 。MOLAP 工 具 一 般 将 预计 算 后 的 数据 集合 作为 一 个 数据 立 
方 体 使 用 。 对 于 给 定 范围 的 问题 ， 立 方 体 中 的 数据 包含 所 有 可 能 的 答 
案 。 预 处 理 的 好 处 是 可 以 对 问题 做 出 非常 快速 的 啊 应 。 然 而 另 一 方面 ， 
依赖 于 预计 算 的 聚合 程度 ， 装 载 新 数据 可 能 会 花费 很 长 的 时 间 。 另 外 还 
有 些 MOLAP 工 具 ， 尤 其 是 那些 实现 了 某 些 数据 库 功 能 的 MOLAP 工 具 ， 
并 不 预先 计算 原始 数据 ， 而 是 在 需要 时 才 进 行 计 算 。 


MOLAP 的 优点 : 











e 优化 的 数据 存储 、 多 维 数据 索引 和 缓存 带 来 的 快速 得 询 性 能 。 

e 相对 于 关系 数据 库 ， 可 以 通过 压缩 技术 ， 使 数据 存储 只 需 更 小 的 
磁盘 空间 。 

。 MOLAP 工 具 一 般 能 够 自动 进行 高 级 别 的 数据 聚合 。 

o 对 于 低 基 数 维度 的 数据 集合 是 紧 竣 的 。 

。 数组 模型 提供 了 原生 的 索引 功能 。 


MOLAP 的 缺点 : 

。 某 些 MOLAP 人 解决 方案 中 的 处 理 步 又 可 能 需要 很 长 的 时 间 ， 尤 其 
是 当 数 据 量 很 大 时 。 要 解决 这 个 问题 ， 通 常 只 能 增 量 处 理 变 化 的 
数据 ， 而 不 是 预 处 理 整 个 数据 集合 。 

e 可 能 引入 较 多 的 数据 元 余 。 

MOLAP 产 品 : 

商业 的 MOLAP 产 品 主要 有 Cognos Powerplay. Oracle Database 


OLAP Option, MicroStrategy. Microsoft Analysis Services、Essbase 等 。 


2. ROLAP 





ROLAP 和 直接 使 用 关系 数据 库存 储 数 据 ， 不 需要 执行 预计 算 。 基 础 
的 事实 数据 及 其 维度 表 作 为 天 系 表 被 存储 ， 而 聚合 信息 存储 在 新 创建 的 
附加 表 中 。ROLAP 以 数据 库 模式 设计 为 基础 ， 操 作 存 储 在 关系 数据 库 
中 的 数据 ， 实 现 传 统 的 OLAP 数 据 切 片 和 分 块 功能 。 本 质 上 讲 ， 每 种 数 
据 切 片 或 分 其 行为 都 等 同 于 在 SQL 语句 中 增加 一 个 “WHERE"? 子 句 的 过 
滤 条 件 。ROLAP 不 使 用 预计 算 的 数据 立方 体 ， 取 而 代 之 的 是 查询 标准 
的 关系 数据 库 表 ， 返 回回 答 问题 所 需 的 数据 。 与 预计 算 的 MOLAP 不 
同 ，ROLAP 工 具有 人 能力 回答 任意 相关 的 数据 分 析 问 题 ， 因 为 该 技术 不 
受 立 方 体内 容 的 限制 。 通 过 ROLAP 还 能 够 下 钻 到 数据 库 中 存储 的 最 细 
节 的 数据 。 




















由 于 ROLAP 使 用 关系 数据 库 ， 通 常数 据 库 模式 必须 经 过 仔细 设 
计 。 为 OLTP 应 用 设计 的 数据 库 不 能 直接 作为 ROLAP 数 据 库 使 用 ， 这 种 
投机 取 巧 的 做 法 并 不 能 使 ROLAP 良 好 工作 ， 因 此 ROLAP 仍 然 需要 创建 
额外 的 数据 复制 。 但 不 管 怎样 ，ROLAP 毕 竟 用 的 是 数据 库 ， 各 种 各 样 
的 数据 库 设 计 与 优化 技术 都 可 以 被 有 效 利用 。 

ROLAP 的 优点 : 





e 在 处 理 大 量 数据 时 ，ROLAP 更 具 可 伸缩 性 ， 尤 其 是 当 模型 中 包 
含 的 维度 具有 很 高 的 基数 ， 例 如 ， 维 度 表 中 有 上 百 万 的 成 员 时 。 
有 很 多 可 选用 的 数据 装载 工具 ， 并 且 能 够 针对 特定 的 数据 模型 精 
细 调 整 ETL 人 代码 ， 数 据 装 载 所 需 时 间 通 第 比 自动 化 的 MOLAP 装 
载 少 得 多 。 

因为 数据 存储 于 标准 关系 数据 库 中 ， 可 以 使 用 SQL 报表 工具 访问 
数据 ， 而 不 必 是 专 有 的 OLAP 工 具 。 

ROLAP 更 适合 处 理 非 聚 合 的 事实 ， 例 如 文本 型 摘 述 。 在 MOLAP 
工具 中 查询 文本 型 元 素 时 性 能 会 相对 较 差 。 

通过 将 数据 存储 从 多 维 模型 中 解 耦 出 来 ， 相 对 于 使 用 严格 的 维度 
模型 ， 这 种 更 普通 的 关系 模型 增加 了 成 功 建 模 的 可 能 性 。 
ROLAP 方 法 可 以 利用 数据 库 的 权限 控制 ， 例 如 通过 行 级 安全 性 
设置 ， 可 以 用 事先 设 定 的 条 件 过 滤 查 询 结 果 。 例 如 Oracle 的 VPD 
技术 ， 能 够 根据 连接 的 用 户 自动 在 查询 的 SQL 语句 中 拼接 
WHERE 谓词 条 件 。 























ROLAP 的 缺点 : 


。 业界 普遍 认为 ROLAP 工 具 比 MOLAP 查 询 速度 慢 。 

聚合 表 的 数据 装载 必须 由 用 户 自己 定制 的 ETL 代 码 控制 。ROLAP 
工具 不 能 自动 完成 这 个 任务 ， 这 意味 着 要 额外 开发 工作 量 。 

如 果 跳 过 创建 聚合 表 的 步 又， 查询 性 能 会 大 打折 扣 ， 因 为 不 得 不 


查询 大 量 的 细节 数据 表 。 虽 然 可 以 通过 适当 建立 聚合 表 绥 解 性 能 
问题 ， 但 对 所 有 维度 表 及 其 属性 的 组 合 创建 聚合 表 是 不 切实 际 
的 。 

ROLAP 依 赖 于 针对 通用 查询 或 缓存 目标 的 数据 库 ， 因 此 并 没有 
提供 某 些 MOLAP 工 具 所 具有 的 特殊 技术 ， 如 透视 表 等 。 但 是 现 
代 ROLAP 工 具 可 以 利用 SQL 语言 中 的 CUBE、ROLLUP 操 作 或 其 
他 SQL OLAP 扩 展 。 随 着 这 些 SQL 扩 展 的 逐步 完善 ，MOLAP 工 具 
的 优势 也 不 那么 明显 了 。 

因为 ROLAP 工 具 的 所 有 计算 都 依赖 于 SQL， 对 于 某 些 不 易 转 化 为 
SQL 的 计算 密集 型 模型 ，ROLAP 不 再 适用 。 例 如 包含 预算 、 拨 款 
等 条 目的 复杂 财务 报表 或 地 理 位 置 计算 的 场景 。 


ROLAP 产 品 : 














使 用 ROLAP 的 商业 产品 包括 Microsoft Analysis Services、 
MicroStrategy、 SAP Business Objects、 Oracle Business Intelligence Suite 
Enterprise Edition, Tableau Software 等 。 也 有 开源 的 ROLAP 服 务 器 ， 如 


Mondrian。 


3. HOLAP 





因为 在 额外 的 ETL 开 发 成 本 与 缓慢 的 查询 性 能 之 间 难 以 选择 ， 现 在 
大 部 分 商业 OLAP 工 具 都 使 用 一 种 混合 型 (Hybrid) 方法 ， 它 允许 模型 
设计 者 决定 哪些 数据 存储 在 MOLAP 中 ， 哪 些 数据 存储 在 ROLAP 中 。 除 
了 把 数据 划分 成 传统 关系 型 存储 和 专 有 存储 外 ， 业 界 对 混合 型 OLAP 并 
没有 清晰 的 定义 。 例 如 ， 某 些 广 商 的 HOLAP 数 据 库 不 使 用 关系 表 存 储 
大 量 的 细节 数据 ， 而 是 用 专用 表 保 存 少量 的 聚合 数据 。HOLAP 结 合 
MOLAP 和 ROLAP 两 种 方法 的 优点 ， 可 以 同时 利用 预计 算 的 多 维 立 方 体 
和 关系 数据 源 。HOLAP 有 以 下 两 种 划分 数据 的 策略 。 


e 垂直 分 区 。 这 种 模式 的 HOLAP 将 聚合 数据 存储 在 MOLAP 中 ， 以 
文 持 良好 的 查询 性 能 ， 而 把 细节 数据 存储 在 ROLAP 中 以 减少 立 
方 体 处 理 所 需 时 间 。 

e 水 平分 区 。 这 种 模式 的 HOLAP 按 数据 热度 划分 ， 将 某 些 最 近 使 
用 的 数据 分 片 存储 在 MOLAP 中 ， 而 将 老 的 数据 存储 在 ROLAP。 


12.1.3 PERE 





OLAP 分 析 所 需 的 原始 数据 量 是 非常 庞大 的 。 一 个 分 析 模 型 ， 往 往 
会 涉及 数 干 万 或 数 亿 条 甚至 更 多 的 数据 ， 而 且 分 析 模 型 中 包含 多 个 维度 
的 数据 ， 这 些 维度 又 可 以 由 用 户 任 意 地 组 合 。 这 样 的 结果 就 是 大 量 的 实 
时 运算 导致 过 长 的 啊 应 时 间 。 想 象 一 个 1000 万 条 记录 的 分 析 模 型 ， 如 果 
一 次 提取 4 个 维度 进行 组 合 分 析 ， 每 个 维度 有 10 个 不 同 的 取 值 ， 理 论 上 
的 运算 次 数 将 达到 10 的 12 次 方 。 这 样 的 运算 量 将 导致 数 十 分 钟 乃 至 更 长 
的 等 待 时间 。 如 果 用 户 对 维度 组 合 次 序 进行 调整 ， 或 增加 、 或 减少 某 些 
维度 的 话 ， 又 将 是 一 个 重新 计算 过 程 。 

从 上 面 的 分 析 中 可 以 得 出 结论 ， 如 果 不 能 解决 OLAP 运 算 效率 问题 
的 话 ，OLAP 将 只 会 是 一 个 没有 实用 价值 的 概念 。 在 OLAP 的 发 展 历史 
中 ， 第 见 的 解决 方案 是 用 多 维 数据 库 代 蔡 关 系数 据 库 设 计 ， 将 数据 根据 
维度 进行 最 大 限度 地 聚合 运算 ， 运 算 中 会 考虑 到 各 种 维度 组 合 情 况 ， 运 
算 结果 将 生成 一 个 数据 立方 体 ， 并 保存 在 磁盘 上 ， 用 这 种 预 运 算 方式 提 
高 OLAP 的 速度 。 那 么 ， 在 大 数据 流行 的 今天 ， 又 有 什么 产品 可 以 解决 
OLAP 的 效率 问题 呢 ? 下 面 介 绍 Hadoop 生 态 圈 中 适合 做 OLAP 的 组 件 : 


Impala。 


























12.2 Impala 简 介 


1. Impala 是 什么 


Impala 是 一 个 运行 在 Hadoop 之 上 的 大 规模 并 行 处 理 (MPP) 查询 引 
擎 ， 提 供 对 Hadoop 集 群 数据 的 高 性 能 、 低 延迟 的 SQL 查询 ， 使 用 HDFS 
作为 底层 存储 。 对 人 查询 的 快速 啊 应 使 交互 式 人 查询 和 对 分 析 查 询 的 调 优 成 
为 可 能 ， 而 这 些 在 针对 处 理 长 时 间 批 处 理 作 业 的 SQL-on-Hadoop 传 统 技 
术 上 是 难以 完成 的 。Impala 是 Cloudera 公 司 基于 Google Dremel 的 开源 实 
现 。Cloudera 公 司 宣 称 除 Impala 外 的 其 他 组 件 都 将 移植 到 Spark 框 架 ， 并 
坚信 Impala 是 大 数据 上 SQL 解雇 方案 的 未 来 ， 可 见 其 对 Impala 的 重视 程 
BE. 

通过 将 Impala 与 Hive 元 数据 存储 数据 库 相 结合 ， 能 够 在 Impala 与 
Hive 这 两 个 组 件 之 间 共 享 数 据 库 表 ;并 且 Impala 与 HiveQL 的 语法 兼容 ， 
因此 既 可 以 使 用 Impala， 也 可 以 使 用 Hive 进 行 建立 表 、 发 布 查询 、 装 载 
数据 等 操作 。Impala 可 以 在 已 经 存在 的 Hive 表 上 执行 交互 式 实 时 查询 。 


2. 为 什么 要 使 用 Impala 








Impala 可 以 使 用 SQL 访 问 存储 在 Hadoop 上 的 数据 ， 而 传统 的 
MapReduce 则 需要 掌握 Java 技 术 。Impala 还 提供 SQL 直 接 访问 
HDFS 文 件 系 统 、HBase 数 据 库 系统 或 Amazon S3 的 数据 。 

Impala 在 Hadoop 生 态 系 统 之 上 提供 并 行 处 理 数 据 库 技术 ， 人 允许 用 
户 执 行 低 延 迟 的 交互 式 查 询 。 

Impala 大 都 能 在 几 秒 或 几 分 钟 内 返回 查询 结果 ， 而 相同 的 Hive 查 
询 通 党 需要 几 十 分 钟 甚至 几 小 时 完成 。 

Impala 的 实时 查询 引擎 非常 适合 对 Hadoop 文 件 系 统 上 的 数据 进行 
分 析 式 查询 。 

由 于 Impala 能 实时 给 出 查询 结果 ， 使 它 能 够 很 好 地 与 Pentaho、 
Tableau 这 类 报表 或 可 视 化 工具 一 起 使 用 ， 并 且 这 些 工 具 已 经 配 
备 了 Impala 连 接 器 ， 可 以 从 GUI 直 接 执 行 可 视 化 查询 。 

Impala 与 Hadoop 生 态 圈 相 结合 ， 内 置 对 大 多 数 Hadoop 文 件 格 式 的 

















文 持 〈 但 还 不 文 持 ORC 格 式 ) ， 这 意味 着 可 以 使 用 Hadoop 上 的 
各 种 解决 方案 存储 、 共 享 和 访问 数据 ， 同 时 避免 了 数据 竖井 ， 并 
且 降 低 了 数据 迁移 的 成 本 。 
e Impala 默 认 使 用 Parquet 文 件 格式 ， 这 种 列 式 存储 对 于 典型 数据 仓 
库 场景 下 的 大 查询 是 较为 高 效 的 。 
Impala 之 所 以 使 用 Parquet 文 件 格 式 ， 最 初 灵 感 来 自 于 Google 2010 年 
发 表 的 Dremel 论 文 ， 文 中 论述 了 对 大 规模 查询 的 优化 。Parquet 是 一 种 列 
式 存 储 ， 它 不 像 普通 数据 仓库 那样 水 平 存储 数据 ， 而 是 垂直 存储 数据。 
当 碍 询 在 数值 列 上 应 用 聚合 函数 时 ， 这 种 存储 方式 将 带 来 巨大 的 性 能 提 
升 ， 原因 是 只 需要 读 取 文件 中 该 列 的 数据 ， 而 不 是 像 传统 行 式 表 需要 读 
取 整 个 数据 集 。Parquet 文 件 格式 文 持 多 种 压缩 编码 方式 ， 例 如 Hadoop 
和 Hive 默 认 使 用 的 snappy 压 缩 等 ，Parquet 文 件 也 可 用 Hive 和 Pig 处 理 。 


3. 适合 Impala 的 使 用 场景 




















e 需要 低 延 迟 得 到 查询 结果 。 
。 快 速 分 析 型 查询 。 
。 实时 查询 。 


总 而 言 之 ，Impala 非 常 适 合 OLAP 类 型 的 查询 需求 。 





4. Impala2 jj 





Impala 架 构 如 图 12-2 所 示 。Impala 服 务 器 是 一 个 分 布 式 、 大 规模 并 
行 处 理 数 据 库 引擎 。 它 由 不 同 的 守护 进程 组 成 ， 每 种 守护 进程 运行 在 
Hadoop 集 群 中 的 特定 主机 上 。 其 中 Impalad、Statestored、Catalogd 三 个 
守护 进程 在 其 架构 中 扮演 主要 角色 。 





\ 
mid 








图 12-2 ”Impala 架 构 
(1) Impalas 3 3E f 


Impala 的 核心 组 件 是 一 个 运行 在 集群 中 每 个 数据 节点 上 的 守护 进 
程 ， 物 理 表现 为 impalad 进 程 。 该 进程 恋 写 数据 文件 ， 接 收 从 impala-shell 
命令 行 、Hue、JDBC、ODBC 提 交 的 查询 请 求 ， 将 查询 工作 并 行 分 布 到 
集群 的 数据 节点 上 ， 并 将 查询 的 中 间 结 果 返 回 给 中 心 协调 节点 。 

可 以 将 查询 提交 至 任意 一 个 数据 节点 上 运行 的 Impala 守 护 进程 ， 此 
守护 进程 实例 担任 该 查询 的 协调 器 ， 其 他 节点 提交 部 分 中 间 结 果 返 给 协 
调 器 ， 协 调 器 构建 查询 的 最 终结 果 集 。 当 在 试验 环境 使 用 impala-shell 命 
令 行 运行 SQL 时 ， 出 于 方便 性 ， 通 澡 总 是 连接 同一 个 Impala 守 护 进程 。 
而 在 生产 环境 负载 的 集群 中 ， 可 以 采用 循环 的 方式 ， 通 过 JDBC 或 
ODBC 接 口 ， 将 每 个 查询 轮流 提交 至 不 同 的 Impala 守 护 进程 ， 以 达到 负 
载 均衡 。 


Impala 守 护 进程 持续 与 statestore 进 行 通信 ， 以 确认 每 个 节点 的 健康 
状况 以 及 是 否 可 以 接收 新 的 任务 。 当 集群 中 的 任何 Impala 节 点 建立 、 修 
改 、 删 除 任何 类 型 的 对 象 ， 或 者 通过 Impala 处 理 一 个 insert 或 load data 语 
人 句 时 ，catalogd 守 护 进程 (Impala 1.25] AO 都 会 发 出 广播 消息 。Impala 








守护 进程 会 接收 这 种 从 catalogd 守 护 进程 友 出 的 广播 消息 。 这 种 后 台 通 
信 减 少 了 对 refresh 或 invalidate metadata 语 句 的 需要 ， 而 在 Impala 1.2 版 本 
前 ， 这 些 语 句 被 用 于 在 节点 间 协 调 元 数据 信息 。 


(2) Impala Statestore 


叫做 Statestore 的 Impala 组 件 检查 集群 中 所 有 数据 节点 上 Impala 守 护 
进程 的 健康 状况 ， 并 将 这 些 信息 持续 转发 给 每 个 Impala 守 护 进程 。 其 物 
理 表 现 为 一 个 名 为 statestored 的 守护 进程 ， 该 进程 只 需要 在 集群 中 的 一 
台 主 机 上 启动。 如 果 Impala 守 护 进 程 由 于 硬件、 软件 、 网 络 或 其 他 原因 
失效 ，Statestore 会 通知 所 有 其 他 的 Impala 守 护 进 程 ， 这 样 以 后 的 查询 就 
不 会 再 向 不 可 到 达 的 节点 发 出 请 求 。 


Statestore 的 目的 只 是 在 发 生 某 种 错误 时 提供 帮助 ， 因 此 在 正常 操作 
一 个 Impala 集 群 时 ， 它 并 不 是 一 个 关键 组 件 。 即 使 Statestore 没 有 运行 或 
者 不 可 用 ，Impala 守 护 进 程 依然 会 运行 ， 并 像 平常 一 样 在 它们 中 分 发 任 
务 。 这 时 如 果 一 个 Impala 守 护 进程 失效 ， 仅 仅 是 降低 了 集群 的 鲁 棒 性 。 
当 Statestore 恢 复 可 用 后 ， 它 会 重建 与 Impala 守 护 进 程 之 间 的 通信 并 恢复 


监控 功能 。 


在 Impala 中 ， 所 有 负载 均衡 和 高 可 用 的 考虑 都 是 应 用 于 impalad 守 护 
进程 的 。statestored 和 catalogd 进 程 没 有 高 可 用 的 需求 ， 因 为 这 些 进程 即 
使 出 现 问题 也 不 会 引起 数据 丢失 。 当 这 些 进 程 由 于 所 在 的 主机 停机 而 变 
成 不 可 用 时 ， 可 以 这 样 处 理 : 先 停止 Inpala 服 务 ， 然 后 删除 Impala 
StateStore 和 Impala ” Catalog 服务 器 角色 ， 再 在 另 一 台 主 机 上 添加 这 两 个 
角色 ， 最 后 重启 Impala 服 务 。 








(3) Impala Catalog 服 务 


称 为 Catalog 服 务 的 Impala 组 件 将 Impala SQL 语句 产生 的 元 数据 改变 


转发 至 集群 中 的 所 有 数据 节点 。 其 物理 表现 为 一 个 名 为 catalogd 的 守护 
进程 ， 该 进程 只 需要 在 集群 中 的 一 台 主 机 上 启动 ， 而 且 应 该 与 
statestored/E Fe Hh E [8] — & EHLE. 

由 于 Catalog 服 务 的 存在 ， 当 执行 Impala SQL 语句 而 改变 元 数据 时 ， 
不 需要 再 发 出 refresh 或 invalidate metadata 语 句 。 然 而 ， 当 通过 Hive 执 行 
建立 表 、 装 载 数据 等 操作 后 ， 在 一 个 Impala 节 点 上 执行 查询 前 ， 仍 然 需 
要 先 发 出 refresh 或 invalidate metadata 语 句 。 例 如 ， 通 过 Impala 执 行 的 
create table、insert 或 其 他 改变 表 或 改变 数据 的 操作 ， 无 须 执 行 refresh 或 
invalidate metadata 语 句 。 而 如 果 这 些 操作 是 在 Hive 中 执行 的 ， 或 者 是 直 
接 操 纵 的 HDFS 数 据 文件 ， 仍 需 执行 refresh 或 invalidate metadata j] (W 
需 在 一 个 Impala 节 点 执行 ， 而 不 是 全 部 节点 ) 。 

默认 情况 下 ， 元 数据 在 Impala 有 局 动 时 异步 装载 并 缓存 ， 这 样 Impala 
可 以 立即 接收 查询 请 求 。 如 果 想 让 Impala 等 所 有 元 数据 装载 后 再 接收 查 
询 请 求 ， 需 要 设置 catalogd 的 配置 选项 
load catalog. in background-false. 




















5. 开发 Impala 应 用 
(1) Impala SQL 方言 


Impala 上 的 核心 开发 语言 是 SQL， 也 可 以 使 用 Java 或 其 他 语言 ， 通 
过 JDBC 或 ODBC 接 口 与 Impala 进 行 交 互 ， 许 多 商业 智能 工具 都 使 用 这 种 
方式 。 对 于 特殊 的 分 析 需 求 ， 还 可 以 用 C++ 或 Java 编 写 用 户 定 义 的 函数 
(UDFs) ， 补 充 SQL 内 建 的 功能 。 


Impala 的 SQL 方言 与 Hive 组 件 的 HiveQL 在 语法 上 高 度 兼 容 。 正 因 如 
此 ， 对 于 熟悉 Hadoop 架 构 上 SQL 查询 的 用 户 来 说 ，Impala SQL 并 不 陌 
生 。 当 前 ，Impala SQL 支持 HiveQL 语 句 、 数 据 类 型 、 内 建 函数 的 一 个 子 
集 。Impala 还 包含 一 些 附加 的 符合 工业 标准 的 内 建 函 数 ， 它 们 常 被 用 于 


简化 从 非 Hadoop 系 统 移植 SQL 。 


对 于 具有 传统 数据 库 或 数据 仓库 背景 的 用 户 来 说 ， 下 面 关于 SQL 方 
言 的 内 容 应 该 是 非常 熟悉 的 : 








e 包含 where、group by、order by、with 等 子 句 的 Select 语句 
(Impala 的 with 子 句 并 不 支持 递归 查询) ， 连 接 操作 ， 处 理 字 符 

串 、 数 字 、 日 期 的 内 建 浮 数 、 有 聚合 函数 、 子 查询 、in 和 between 这 
样 的 比较 操作 符 等 。 这 些 select 语 句 与 QL 标准 是 兼容 的 。 

。 分 区 表 在 数据 仓库 中 经 常 使 用 。 把 一 个 或 多 个 列 作为 分 区 键 ， 数 

据 按照 分 区 键 的 值 物理 分 布 。 当 碍 询 的 where 子 句 中 包含 分 区 键 

列 时 ， 可 以 直接 跳 过 不 符合 过 滤 条 件 的 分 区 ， 这 也 就 是 所 谓 

的 “分 区 消除 ”。 人 例如， 假设 以 year 作 为 分 区 键 ， 表 中 保存 有 10 年 

的 数据 ， 并 且 查 询 语 句 中 有 类 似 where year = 2015. where year > 

2010, where year in (2014, 2015) 这 样 的 where 子 句 ， 则 Impala 会 跳 

过 所 有 不 匹配 年 份 的 数据 ， 这 会 大 大 降低 碍 询 的 IO 数量 ， 从 而 

提高 查询 性 能 。 

在 Impala 1.2 及 其 以 上 版 本 中 ，UDFs 可 以 在 select 和 insert ... select 

语句 中 执行 定制 的 比较 和 转换 逻辑 。 


如 果 对 Hadoop 环 境 不 够 熟悉 但 具有 传统 数据 库 或 数据 仓库 背景 ， 需 
要 学 习 并 实践 一 下 Impala SQL 与 传统 SQL 的 不 同 之 处 : 




















。 Impala SQL 专 注 于 查询 而 不 是 DML， 所 以 没有 提供 update 或 delete 
语句 。 对 于 没 用 的 陈旧 数据 ， 典 型 的 做 法 是 使 用 drop table 或 alter 
table ... drop partition 等 语句 直接 删除 ， 或 者 使 用 insert overwrite 语 
TEE URS A D EH. 

在 Impala 中 ， 所 有 的 数据 创建 都 是 通过 insert 语 句 ， 典 型 情况 是 通 
过 查询 其 他 表 批 量 插入 数据 。insert 语 名 有 两 种 插入 数据 的 方 

式 ，insert into 在 现 有 数据 上 退 加 ， 而 insert overwrite 则 会 蔡 换 整 


个 表 或 分 区 的 内 容 ， 效 果 就 像 先 truncate 再 insert 一 样 。Impala 没 
有 insert ... values 的 插入 单行 的 语法 。 

比较 常见 的 情况 是 ， 在 其 他 环境 建立 表 和 数据 文件 ， 然 后 使 用 
Impala 对 其 进行 实时 查询 。 相 同 的 数据 文件 和 表 的 元 数据 在 
Hadoop 生 态 圈 的 不 同 组 件 之 间 共 享 。 例 如 ，Impala 可 以 访问 Hive 
里 的 表 和 数据 ， 而 Hive 也 可 以 访问 在 Impala 中 建立 的 表 及 其 数 
据 。 许 多 其 他 的 Hadoop 组 件 可 以 生成 Parquet 和 Avro 格式 的 文 

件 ，Impala 也 可 以 查询 这 些 文件 。 

Hadoop 和 Impala 的 关注 点 在 大 数据 集 上 的 数据 仓库 型 操作 ， 因 此 
Impala 包 含 一 些 对 于 传统 数据 库 应 用 系统 非常 重要 的 SQL 方言 。 
例如 ， 可 以 在 create table 语 句 中 指定 分 隔 符 ， 通 过 表 读 取 以 逗号 
和 tab 做 分 隔 的 文本 文件 。 还 可 以 建立 外 部 表 ， 在 不 迁移 和 转换 
现 有 数据 文件 的 前 提 下 读 取 它们 。 

Impala 读 取 的 大 量 数 据 可 能 不 太 容 易 确定 其 长 度 ， 所 以 不 能 强制 
字符 串 类 型 数据 的 长 度 。 例 如 ， 可 以 定义 一 个 表 列 为 string 类 
型 ， 而 不 是 像 char(1) 或 varchar(64) 限 制 字 符 串 长 上 度 。 在 Impala 1.2 
及 其 以 后 版 本 中 ， 可 以 使 用 char 和 varchar 类 型 限制 字符 串 长 度 。 











(2) Impala 编 程 接口 
可 以 通过 下 面 的 接口 连接 Impala， 并 问 impalad 守 护 进 程 提交 请 求 。 


。 impala-shell 命 令 行 接 口 
e Hue 基 于 Web 的 用 户 界 面 
e JDBC 

e ODBC 


使 用 这 些 接口 ， 可 以 在 异 构 环境 下 使 用 Impala， 如 在 非 Linux 平 台 上 
运行 的 JIDBC、ODBC 应 用 ， 还 可 以 使 用 JDBC、ODBC 接 口 将 Inpala 和 


商业 智能 工具 结合 使 用 。 每 个 impalad 守 护 进程 运行 在 集群 中 的 不 同 节 

点 上 ， 监 听 来 和 目 多 个 端口 的 请 求 。 来 自 impala-shell 和 Hue 的 请 求 通过 相 
同 的 端口 被 路 由 至 impalad 守 护 进 程 ， 而 JDBC 和 ODBC 的 请 求 发 往 不 同 
的 impalad 监 听 端 口 。 


6. Impala5 Hadoop & 
Impala 能 够 利用 Hadoop 生 态 圈 中 的 许多 组 件 ， 并 且 可 以 和 这 些 组 件 


交换 数据 ， 既 可 作为 生产 者 也 可 作为 消费 者 ， 因 此 可 以 灵活 地 加 入 到 
ETL 管 道中 。 





(1) Impala Hive 


Impala 的 一 个 主要 目标 是 让 SQL-on-Hadoop 操 作 足 够 快 ， 以 吸引 新 
的 Hadoop 用 户 ， 或 开发 Hadoop 新 的 使 用 场景 。 在 实际 应 用 中 ，Hadoop 
用 户 可 以 使 用 Hive 来 执行 长 时 间 运 行 的 、 面 向 批 处 理 的 SQL 得 询 ， 而 
Impala 可 以 利用 这 些 已 有 的 Hive 架 构 。Impala 将 它 的 表 定 义 存储 在 一 个 
传统 的 MySQL 或 PostgreSQL 数 据 库 中 ， 这 个 数据 库 被 称 为 metastore， 而 
Hive 也 将 其 元 数据 存储 在 同一 个 的 数据 库 表 中 。 通 过 这 种 方式 ， 只 要 
Hive 表 定义 的 文件 类 型 、 压 缩 算法 和 所 有 列 的 数据 类 型 为 Impala 所 文 
持 ，Impala 就 可 以 访问 该 表 。 

Impala 最 初 被 设计 成 致力 于 提高 查询 的 性 能 ， 这 就 意味 着 在 Impala 
里 ，select 语 句 能 够 读 取 的 数据 的 类 型 比 insert 语 句 能 够 插入 的 数据 的 类 
型 要 多 。Impala 可 以 读 取 使 用 Hive 闭 载 的 Avro、RCFile 或 SequenceFile 文 
件 格式 的 数据 。 

Impala 碍 询 优化 器 也 可 以 使 用 表 和 列 的 统计 信息 。 在 Impala 1.2.2 版 
本 前 ， 使 用 Hive 里 的 analyze table 语 句 收 集 这 些 信息 ， 在 Impala 1.2.2% 
其 更 高 版 本 中 ， 使 用 Impala 的 compute stats 语 句 收 集 信 息 。compute stats 














更 灵活 也 更 简单 ， 并 且 不 需要 在 impala-shell 和 Hive shell 之 间 来 回 切换 。 
(2) Impala 的 元 数据 及 其 存储 


前 面 在 讨论 Impala 如 何 与 Hive 一 起 使 用 时 提 到 ，Impala 使 用 一 个 叫 
做 metastore 的 数据 库 维护 它 的 表 定 义 信息 。 同 时 Impala 还 跟踪 其 他 数据 
文件 底层 特性 的 元 数据 ， 如 HDFS 中 数据 块 的 物理 位 置信 息 。 

对 于 一 个 有 很 多 分 区 或 很 多 数据 的 大 表 ， 获 取 它 的 元 数据 可 能 很 耗 
时 ， 有 时 需要 花 上 几 分 钟 的 时 间 。 因 此 每 个 Impala 节 点 都 会 缓存 这 些 元 
数据 ， 当 后 面 再 查询 该 表 时 ， 就 可 以 复 用 绥 存 中 的 元 数据 。 


如 果 表 定义 或 表 中 的 数据 更 新 了 ， 和 集群 中 所 有 其 他 的 Impala 守 护 进 
程 在 查询 该 表 前 ， 都 必须 能 收 到 最 新 的 元 数据 ， 并 更 新 自己 缓存 的 元 数 
据 信 息 。 在 Impala 1.2 或 更 高 版 本 中 ， 这 种 元 数据 的 更 新 是 自动 的 ， 由 
catalogd 守 护 进程 为 所 有 通过 Impala 发 出 的 DDL 和 DML 语 句 进 行 协调 。 


对 于 通过 Hive 发 出 的 DDL 和 DML， 或 者 手工 改变 了 HDFS 文 件 的 情 
况 ， 还 是 需要 在 Impala 中 使 用 refresh 语 句 〈 当 新 的 数据 文件 被 加 到 已 有 
的 表 上 ) 或 invalidate metadata 语 句 〈 新 建 表 、 删 除 表 、 执 行 了 HDFS 的 
rebalance 操 作 ， 或 者 删除 了 数据 文件 ) 。invalidate ”metadata 语 句 获 取 
metastore 中 存储 的 所 有 表 的 元 数据 。 如 果 能 够 确定 在 Impala 外 部 只 有 特 
定 的 表 被 改变 ， 可 以 为 每 一 个 受 影响 的 表 使 用 refresh 表 名 ， 该 语句 只 获 
取 特 定 表 的 最 新 元 数据 。 


















































(3) Impala 与 HDFS 


Impala 使 用 分 布 式 文 件 系 统 HDFS 作 为 主要 的 数据 存储 介质 。Impala 
依赖 HDFS 提 供 的 元 余 功 能 ， 保 证 在 单独 节点 因 硬 件 、 软 件 或 网 络 问题 
失效 后 仍 能 工作 。Impala 表 数据 物理 表现 为 HDFS 上 的 数据 文件 ， 这 些 
文件 使 用 常见 的 HDFS 文 件 格式 和 压缩 算法 。 


(4) Impala 5; Hbase 


除 HDFS 外 ，HBase 也 是 Impala 数 据 存 储 介质 的 备 选 方案 。HBase 是 
建立 在 HDFS 之 上 的 数据 库存 储 系 统 ， 不 提供 内 建 的 SQL 文 持 。 许 多 
Hadoop 用 户 使 用 HBase 存 储 大 量 的 稀 玻 数据 。 在 Imnpala 中 可 以 定义 表 ， 
并 映射 为 HBase 中 等 价 的 表 ， 通 过 这 种 方式 就 可 以 使 用 Impala 查 询 HBase 
表 的 内 容 ， 甚 至 可 以 联合 Impala 表 和 HBase 表 执行 关联 查询 。 





12.3 Hive. SparkSQL. Impalalt 4% 


Hive, Spark ”SQL 和 Impala 三 种 分 布 式 SQL 碍 询 引 擎 都 是 SQL-on- 
Hadoop 解 决 方案 ， 但 又 各 有 特点 。 前 面 已 经 讨论 了 Hive 和 Impala， 本 节 
先 介 绍 一 下 SparkSQL， 然 后 从 功能 、 架 构 、 使 用 场景 几 个 方面 比较 这 
三 款 产品 的 异同 ， 最 后 附 上 分 别 由 Cloudera 公 司 和 SAS 公 司 出 示 的 关于 
= an A ERE ELIR E o 





12.3.1 Spark SQL 简介 


Spark SQL 是 Spark 的 一 个 处 理 结构 化 数据 的 程序 模块 。 与 其 他 基本 
的 Spark RDD API (参见 3.4 节 对 Spark 的 介绍 ) 不 同 ，Spark SQL 提供 的 
接口 包含 更 多 关于 数据 和 计算 的 结构 信息 ，Spark SQL 会 利用 这 些 额 外 
言 四 执 行 优 化 。 可 以 通过 SQL 和 Dataset API 与 Spark SQL 交互 ， 但 无 论 
使 用 何 种 语言 或 API 加 Spark SQL 发 出 请 求 ， 其 内 部 都 使 用 相同 的 执行 引 
擎 ， 这 种 统一 性 方便 开发 者 在 不 同 的 API 间 进行 切换 。 


Spark SQL 的 主要 用 途 是 使 用 Spark 计 算 框架 在 Hive 表 上 执行 SQL 碍 
询 。 主 要 有 两 种 方式 运行 Spark SQL， 使 用 命令 行 接口 交互 式 地 执行 
SQL 查询 ， 或 者 通过 JDBC/ODBC 在 程序 中 执行 。 当 运行 内 舱 在 其 他 编 
程 语 言 里 的 SQL 时 ， 碍 询 结果 集 将 以 DataseUDataFrame 返 回 。 





Dataset 是 一 个 分 布 式 的 数据 集合 ， 而 Dataset API 是 Spark 1.6 中 新 增 





的 编程 接口 ， 它 利用 Spark SQL 执行 引擎 优化 器 提供 RDD 的 功能 。 
Dataset 可 以 从 JVM 对 象 中 构建 ， 然 后 使 用 map、flatMap、filter 等 方法 进 
行 转换 。Dataset API 在 Scala 和 Java 语 言 中 有 效 。 


DataFrame 是 被 组 织 为 命名 列 的 Dataset， 其 概念 与 关系 数据 库 中 的 


表 类 似 ， 但 底层 结构 更 加 优化 。DataFrame 可 以 从 结构 化 的 数据 文件 、 
Hive 表 、 外 部 数据 库 ， 或 者 已 有 的 RDD 中 构建 。DataFrame API 在 


Scala、 


Java、Python 和 R 语 言 中 有 效 。 


Spark SQL 具 有 如 下 特性 : 


SEM: 将 SQL 查 询 与 Spark 程 序 无 颖 集成 。Spark SQL 可 以 将 结构 
化 数据 作为 Spark 的 RDD 进 行 查询 ， 并 整合 了 Scala、Java、 
Python、R 等 语言 的 API。 这 种 集成 可 以 使 开发 者 只 需 运 行 SQL 查 
询 就 能 完成 复杂 的 分 析 算 法 。 

统一 数据 访问 : 通过 Schema RDDs 为 高 效 处 理 结构 化 数据 而 提供 
的 单一 接口 ，Spark SQL 可 以 从 Hive 表 、Parquet 或 JSON 文 件 等 多 
种 数据 源 查 询 数 据 ， 也 可 以 向 这 些 数 据 源 装载 数据 。 

与 Hive 兼 容 : 已 有 数据 仓库 上 的 Hive 查 询 无 须 修改 即 可 运行 。 
Spark ”SQL 复 用 Hive 前 端 和 元 数据 存储 ， 与 已 存在 的 Hive 数 据 、 
查询 和 UDFs 完 全 兼容 。 

标准 的 连接 层 : 使 用 JDBC 或 ODBC 连 接 。Spark SQL 提供 标准 的 
JDBC、ODBC 连 接 方式 。 

可 扩展 性 : 交互 式 查询 与 批 处 理 查询 使 用 相同 的 执行 引擎 。 
Spark SQL 利 用 RDD 模 型 提供 容错 和 扩展 性 。 











Spark SQL 架构 如 网 12-3 所 示 ， 包 括 Language API, Schema RDD, 


Data Sources 三 层 。 


Language API: Spark SQL 与 多 种 语言 莱 容 ， 并 提供 这 些 语言 的 


API. 

e Schema RDD: Schema RDD 是 存放 Row 对 象 的 RDD， 每 个 Row 对 
象 代表 一 行 记 录 。Schema RDD 还 包含 记录 的 结构 信息 ， 即 数据 
字段 ， 它 可 以 利用 结构 信息 高 效 地 存储 数据 。Schema RDD 文 持 
SQL 查询 操作 。 

e Data Sources: 一 般 Spark 的 数据 源 是 纯 文 本 或 Avro 文件 ， 而 Spark 
SQL 的 数据 源 却 有 所 不 同 。 其 数据 源 可 能 是 Pardquet 文 件 、JSON 
文档 、Hive 表 或 Cassandra 数 据 库 。 














Language API python | 


Spark SOL 
Schema RDD 


Data Frame 


Data Sources parquet | | 








[12-3 Spark SQL 架构 
12.3.2? Hive. Spark SQL. Impalatk $x 
1， 功 能 
(1) Hive 


e 是 简化 数据 抽取 、 转 换 、 装 载 的 工具 。 

提供 一 种 机 制 ， 给 不 同 格式 的 数据 加 上 结构 。 

。 可 以 直接 访问 HDFS 上 存储 的 文件 ， 也 可 以 访问 HBase 的 数据 。 
e 默认 通过 MapReduce 执 行 查询 。 





Hive 定 义 了 一 种 叫做 HiveQL 的 简单 的 类 SQL 得 询 语言 ， 用 户 只 要 
熟悉 SQL， 就 可 以 使 用 它 查 询 数据 。 同 时 ，HiveQL 语 言 也 允许 熟 
悉 MapReduce 计 算 框架 的 程序 员 添 加 定制 的 mapper 和 reducer 插 
件 ， 执 行 该 语言 内 建功 能 不 支持 的 复杂 逻辑 。 

用 户 可 以 定义 自己 的 标量 函数 CUDF) 、 聚 合 函数 CUDAF) 和 
表 函 数 (UDTF) 。 

支持 索引 压缩 和 位 图 索引 。 

支持 文本 、RCFile、ORC 等 多 种 文件 格式 或 存储 类 型 。 

使 用 RDBMS 存 储 元 数据 ， 减 少 了 但 询 执行 时 语义 检查 所 需 的 时 
间 。 

文 持 DEFLATE、BWT 或 snappy 等 算法 操作 Hadoop 生 态 系统 内 存 
储 的 数据 。 

大 量 内 建 的 日 期 、 数 字 、 字 符 串 、 聚 合 、 分 析 函 数 。 

HiveQL E 5X $515 j| MapReduce? Spark1F MV . 


(2) Spark SQL 


X WPParquet, Avro. Text, JSON. ORC & FH SC (TR. 
支持 存储 在 HDFS、HBase、Amazon S3 上 的 数据 操作 。 
文 持 snappy、1zo、8gzip 等 典型 的 Hadoop 压 缩编 码 方式 。 
通过 使 用 “shared secret” 提 供 安 全 认证 。 

支持 Akka 和 HTTP 协 议 的 SSL 加 密 。 

保存 事件 日 志 。 

文 持 UDF。 

文 持 并 发 查询 和 作业 的 内 存 分 配 管理 ， 可 以 指定 RDD 只 存在 内 存 
中 ,或 只 存在 磁盘 上 ， 或 内 存 和 磁盘 都 存在 。 

文 持 把 数据 缓存 在 内 存 中 。 

MIF KEY 





(3) Impala 


e x Parquet. Avro, Text. RCFile, SequenceFile<s Z fb XC (445 
n 

支持 存储 在 HDFS、HBase、Amazon S3 上 的 数据 操作 。 

支持 多 种 压缩 编码 方式 Snappy (有 效 平衡 压缩 率 和 解压 缩 速 
FE) 、Gzip“〈 最 高 压缩 率 的 归档 数据 压缩 ) 、Deflate CPC REX 
本 文件 ) 、Bzip2、LZO (只 支持 文本 文件 )。 
支持 UDF 和 UDAF。 

自动 以 最 有 效 的 顺序 进行 表 连 接 。 

e 人 允许 定义 查询 的 优先 级 排队 策略 。 

e 文 持 多 用 户 并 发 查询 。 

e MIRE o 

。 提供 计算 统计 信息 (COMPUTE STATS) 。 

e 提供 窗口 函数 ， 如 聚合 函数 OVER PARTITION, RANK, 
LEAD、LAG、NTILE 等 ， 以 支持 高 级 分 析 功 能 。 

文 持 使 用 磁盘 进行 连接 和 聚合 ， 当 操作 使 用 的 内 存 溢出 时 转 为 磁 
盘 操作 。 

。 人 允许 在 where 子 句 中 使 用 子 查 询 。 

。 人 允许 增 量 统计 ， 只 在 新 数据 或 改变 的 数据 上 执行 统计 计算 。 

e X ¥fmaps, structs. arrays LA SAKE AY. 

e 可 以 使 用 Impala 插 入 或 更 新 HBase。 

















2. 架构 
(1) Hive 


构建 在 Hadoop 之 上 ， 碍 询 管 理 分布 式 存储 上 的 大 数据 集 的 数据 仓库 
组 件 。 底 层 默认 使 用 MapReduce 计 算 框架 ，Hive 碍 询 被 转化 为 
MapReduce 人 代码 并 执行 。 生 产 环境 建议 使 用 RDBMS 存 储 元 数据 。 文 持 





JDBC、ODBC、CLI 等 连接 方式 。 
(2) Spark SQL 


底层 使 用 Spark 计 算 框 架 ， 提 供 有 辐 无 环 图 ， 比 MapReduce 更 灵活 。 
Spark SQL 以 Schema RDD 为 核心 ， 模 糊 了 RDD 与 关系 表 之 间 的 界线 。 
Schema RDD 是 一 个 由 Row 对 象 组 成 的 RDD， 附 市 包含 每 列 数据 类 型 的 
结构 信息 。Spark ”SQL 复 用 Hive 的 元 数据 存储 。 支 持 JDBC、ODBC、 
CLI 等 连接 方式 ， 并 提供 多 种 语言 的 API。 


(3) Impala 


底层 采用 MPP 技 术 ， 文 持 快速 交互 式 SQL 查 询 。 与 Hive 共 享 元 数据 
存储 。impalad 是 核心 进程 ， 负 责 接 收 查 询 请 求 并 同 多 个 数据 节点 分 发 
任务 。statestored 进 程 负责 监控 所 有 impalad 进 程 ， 并 回 集 群 中 的 节点 报 
告 各 个 impalad 进 程 的 状态 。catalogd 进 程 负责 广播 通知 元 数据 的 最 新 信 
E 


4U o 








3. 使 用 场景 


(1) Hive 

适用 场景 : 

周期 性 转换 大 量 数据 ， 例 如 : 每 天 晚上 导入 OLTP 数 据 并 转换 为 
星 型 模式 ， 每 小 时 批量 转换 数据 等 。 

整合 遗留 的 数据 格式 ， 例 如 : 将 CSV 数 据 转 换 为 Avro; 将 一 个 用 
户 自 定义 的 内 部 格式 转换 为 Parquet 等 。 


不 适用 场景 : 





e 商业 智能 ， 例 如 :与 Tableau 结 合 进行 数据 探查 ， 与 Micro 
Strategy 结 合 导出 报表 等 。 


e SERAH, lu: OLAP 查 询 。 
(2) Spark SQL 
适用 场景 : 


。 从 Hive 数 据 仓 库 中 抽取 部 分 数据 ， 使 用 Spark 进 行 分 析 。 
不 适用 场景 : 
e. 疝 业 智能 和 交互 式 碍 询 


(3) Impala 
适用 场景 : 

秒 级 的 啊 应 时 间 
e OLAP 

e 交互 式 查 询 

不 适用 场景 : 


e ETL 
e UDIF 


12.3.3 Hive. Spark SQL、Impala 性 能 对 比 
1. Cloudera 公 司 2014 年 做 的 性 能 基准 对 比 测试 (原文 链 
接 : http://blog.cloudera.com/blog/2014/09/new-benchmarks- 


for-sql-on-hadoop-impala-1-4-widens-the-performance-gap/ ) 


先 看 一 下 测试 结 


e 对 于 单 用 户 碍 询 ，Impala 比 其 他 方案 最 多 快 13 倍 ， 平 均 快 6.7 倍 。 
e 对 于 多 用 户 查 询 ， 差 距 进 一 步 拉 大 : Impala 比 其 他 方案 最 多 快 
27.4 倍 ， 平 均 快 18 倍 。 


下 面 看 看 这 个 测试 是 怎么 做 的 。 








(1) 配置 
所 有 测试 都 运行 在 一 个 完全 相同 的 由 21 个 节点 构成 的 集群 上 上， 每 个 
节点 只 配 有 64GB 内 存 。 之 所 以 内 存 不 配 大 ， 就 是 为 了 消除 人 们 对 于 
Impala 只 有 在 非常 大 的 内 存 上 才 有 好 性 能 的 错误 认识 。 


e。 双 物理 CPU， 每 个 12 核 ，Intel Xeon CPU  E5-2630L 0 at 


2.00GHz。 
e 12 个 磁盘 驱动 器 ， 每 个 磁盘 932GB，1 个 用 作 OS， 其 他 用 作 
HDFS. 


e 每 节点 64GB 内 存 。 


(2) 对比 产品 


Impala 1.4.0 

e Hive-on-Tez 0.13 
e Spark SQL 1.1 

e Presto 0.74 


(3) 查询 
e 21 个 节点 上 的 总 数据 量 为 15T。 


。 测试 场景 取 自 TPC-DS〔 一 个 开放 的 决策 文 持 基 准 ， 包 括 交 互 
式 、 报 表 、 分 析 式 碍 询 ) 。 


e 除 Impala 外 ， 其 他 引擎 都 没有 基于 成 本 的 优化 器 (Hive 0.14 版 本 
开始 提供 CBO) ， 所 以 本 测试 使 用 的 查询 都 使 用 SQL-92 标 准 的 
连接 。 

e 采用 统一 的 Snappy 压 缩编 码 方 式 ， 各 个 引擎 使 用 各 自 最 优 的 文件 
格式 ，Impala 和 Spark SQL 使 用 Parquet，Hive-on-Tez 使 用 ORC， 
Presto 使 用 RCFile。 

e 对 每 种 引擎 多 次 运行 和 调 优 。 





(4) 结果 


单 用 户 碍 询 如 图 12-4 所 示 。 


Single-User Response Time/Impala Times Faster Than 
(Lower bars are better) 
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图 12-4 PARA Pte 





多 用 户 碍 询 如 图 12-5 所 示 。 


Single User versus 10 Users Response Time/Impala Times Faster Than 
(Lower bars are better) 
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图 12-5 ”多 用 户 对 比 


查询 吞吐 率 如 图 12-6 所 示 。 





Query Throughput/Impala Throughput Times More Than 
(Higher bars are better) 
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图 12-6 FIX E 





Impala 本 里 就 是 Cloudera 公 司 的 主打 产品 ， 因 此 只 听 其 一 面 之 词 未 
免 有 失 偏 颇 ， 下 面 就 再 看 一 个 SAS 公 司 的 测试 。 


2. SAS 公 司 2013 年 做 的 Impala 和 Hive 的 对 比 测试 
(1) 硬件 


e Dell M1000e server rack 
e Dell M610 blades 
e Juniper EX4500 10 GbE switch 


JJ Hr ARS SR BC EL: 


e [ntel Xeon X5667 3.07GHz processor 

e Dell PERC H700 Integrated RAID controller 
e Disk size: 543 GB 

e FreeBSD iSCSI Initiator driver 

e HP P2000 G3 iSCSI dual controller 

e Memory: 94.4 GB 


(2) 软件 


e Linux 2.6.32 

e Apache Hadoop 2.0.0 

e Apache Hive 0.10.0 

e Impala 1.0 

e Apache MapReduce 0.20.2 


(3) 数据 


数据 模型 如 图 12-7 所 示 。 各 表 的 数据 量 如 表 12-1 所 示 。 


表 12-1 测试 表 记 录 数 


E 
PAGE_CLICK_FACT 14.5 Z) 
223 ( 百 万 ) 


REFERRER DIM 10.52 (AJ?) 


BROWSER DIM 164.2 CT2 
STATUS CODE 70 








PAGE_CLICK_FLAT 表 使 用 Compressed ”Sequence 文 件 格式 ， 大 小 
124.59 GB. 


PAGE DIM 

PAGE SK 
DOMAIN NM 
REACHABILITY CD 


PAGE DESC 
PROTOCOL NM 


1 








DATE_DIM 

CAL DT 

DAY IN CAL YR NO | 
DAY OF WEEK NO i | 
START OF MONTH OT i | i 
START OF QUARTER UT i 1 ` 
START OF WEEK DT i PAGE GICK FACT 
START OF YEAR DT i VISITOR ID 
| DETAIL T™ 


STATUS CODE DIM 
STATUS CD 1 
CUENT ERROR FLG | 


STATUS CD DESC ] 
SERVER ERROR FLG 


= nek mkaa TE 





t 

i 

i 

i 
PAGE_CLICK_OT (FIC) H 
PAGE_SK (FK) M 
CLIENT SESSION DT (FK) : 
PREVIOUS PAGE SKIFK| ; 
REFERRER SK (FK) i 
NEXT. PAGE. SKIFK) g 
STATUS CD (FK) | 
BROWSER. SK FK) : 
BYTES RECEIVED CNT i 
BYTES SENT CNT i 
CUENT DETAIL TM E 
ENTRY PONT FLG H 
4 

k 

i 

i 

i 

r 

[] 

n 

E 

E 

k 

i 

i 


EXIT_POINT_FLG 

IP ADDRESS 
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图 12-7 对比 测 试 数据 模型 


(4) 查询 





使 用 了 以 下 5 条 查询 语句 : 


-- What are the most visited top-level directories on the custom 
given week and year? 
select 


top_directory, count(*) as 


unique visits 
from 


(select distinct 


visitor id, split(requested file, '[\\/]')[1] as 


top directory 
from 


page click flat 
where 


domain nm = 'support.sas.com' 
and 


flash enabled-'41' 
and 


weekofyear(detail tm) - 48 
and year 


(detail tm) - 2012 
) directory summary 
group by 


top directory 
order by 


unique visits; 


-- What are the most visited pages that are referred from a Goog 
select 


domain nm, requested file, count(*) as 


unique visitors, month 


from 


(select distinct 


domain nm, requested file, visitor id, month 


(detail tm) as month 


from 


page click flat 
where 


domain nm = 'support.sas.com' 
and 


referrer domain nm = 'www.google.com' 
) visits pp ph summary 
group by 


domain nm, requested file, month 


order by 


domain nm, requested file, unique visitors desc 


, month asc 


/ 
-- What are the most common search terms used on the customer Su 


year? 
select 


query string txt, count(*) as count 


from 


page click flat 
where 


query string txt <> '' 
and 


domain nm-'support.sas.com' 
and year 


(detail tm) - '2012' 
group by 


query string txt 
order by count desc 


, 


-- What is the total number of visitors per page using the Safar 
select 


domain nm, requested file, count(*) as 


unique visitors 
from 


(select distinct 


domain nm, requested file, visitor id 
from 


page click flat 
where 


domain nm-'support.sas.com' 
and 


browser nm like 


"%Safari%' 
and 


weekofyear(detail_tm) = 48 
and year 


(detail_tm) = 2012 
) uv_summary 
group by 


domain_nm, requested_file 
order by 


unique_visitors desc 


a 
, 


-- How many visitors spend more than 10 seconds viewing each pag 
select 


domain nm, requested file, count(*) as 


unique visits 
from 


(select distinct 


domain nm, requested file, visitor id 
from 


page click flat 
where 


domain nm-'support.sas.com' 
and 


weekofyear(detail tm) - 48 
and year 


(detail tm) - 2012 
and 


seconds spent on page cnt » 10; 
) visits summary 


group by 


domain nm, requested file 
order by 


unique visits desc 


(5) 结果 


Hive 与 Inpala 碍 询 时 间 对 比如 图 12-8 所 示 。 


Improvement 
(Hive to, Impala) 





5 04: 43 06: 46 
图 12-8 Hive5 Impala Æ ify Hy EX} Et 


可 以 看 到 ， 查 询 1、2、4，Impala 比 Hive 快 得 多 ; 而 查询 3、5， 
Impala 却 比 Hive 慢 很 多 。 这 个 测试 可 能 更 客观 一 些 ， 而 且 也 从 侧面 说 明 
了 一 个 问题 ， 不 要 轻信 厂商 宣传 的 数据 ， 还 是 要 根据 自己 的 实际 测试 情 
况 得 出 结论 。 








12.4 ”联机 分 析 处 理 实例 


本 节 还 是 用 销售 订单 数据 仓库 的 例子 说 明 如 何 使 用 Impala 做 OLAP 
类 型 的 查询 ， 以 及 模拟 实际 遇 到 的 问题 及 解决 方案 。 为 了 处 理 SCD 和 行 


级 更 新 ， 我 们 前 面 的 ETL 处 理 使 用 了 Hive ORCFile 格 式 的 表 ， 可 惜 到 目 
前 为 止 ，Impala 还 不 支持 ORCFile。 用 Impala 查 询 ORCFile 表 时 ， 会 报 出 
如 下 的 错误 信息 : 


ERROR: AnalysisException: Failed to load metadata for table: 'dw 
CAUSED BY: TableLoadingException: Unrecognized table type for ta 


RE — ^4 BEBE. HOR BATT FE dw ee rpg p EJ 
表 ， 但 使 用 Impala 能 够 识别 的 文件 类 型 ， 如 Parquet， 又 会 引入 两 个 新 的 
问题 一 是 CDH ”5.7.0 的 Hive 版 本 是 1.1.0， 有 些 数据 类 型 不 支持 ， 如 
date。 男 一 个 更 大 的 问题 是 增 量 装载 数据 问题 。dw 库 的 维度 表 和 事实 表 
都 有 update 操 作 ， 可 Impala 只 文 持 数据 闭 载 ， 不 文 持 update 和 delete 等 
DML 操 作 。 如 果 每 天 都 做 insert overwrite 履 盖 装 载 全 部 数据 ， 对 于 大 数 
据 量 来 说 很 不 现实 。 

尽管 Impala 不 支持 update 语 句 ， 但 通过 使 用 HBase 作 为 底层 存储 可 以 
达到 同样 的 效果 。 相 同 键 值 的 数据 被 插入 时 ， 会 自动 履 盖 原 有 的 数据 
行 。 这 样 只 要 在 每 天 定期 ETL 时 ， 记 录 当 天 产生 变化 ， 包 括 修改 和 新 增 
的 记录 ， 只 将 这 些 记 录 插 入 到 Impala 表 中 ， 就 可 以 实现 增 量 数据 装载 。 

个 方案 并 不 完美 ， 毕 竞 见 余 了 一 套数 据 ， 既 浪费 空间 ， 又 增加 了 ETL 

的 额外 工作 。 其 实 前 面 ETL 的 Hive 表 也 可 以 使 用 HBase 做 底层 存储 而 不 
用 ORCFile 文 件 类 型 ， 利 用 HBase 的 特性 ， 既 可 以 用 Hive 做 ETL， 又 可 以 
用 Impala 做 OLAP， 真 正 做 到 一 套数 据 ， 多 个 引擎 。 这 个 方案 也 需要 一 
些 额外 的 工作 ， 如 安装 HBase， 配 置 Hive、Impala 与 HBase 协 同 工 作 等 ， 
它 最 主要 的 问题 是 Impala 在 HBase 上 的 查询 性 能 并 不 适合 OLAP 场 景 。 


如 果 没 有 囚 积 快照 事实 表 ， 可 以 对 相对 较 小 的 维度 表 全 量 窗 新 插 
入 ， 而 对 大 的 事实 表 增 量 插入 ， 这 也 是 本 实例 中 采用 的 方案 。 也 就 是 
说 ， 为 了 保证 查询 性 能 和 数据 装载 可 行 性 ， 牺 牲 了 对 累积 快照 事实 表 的 
支持 。 希 望 Impala 尽 快 支持 ORCFile 并 能 达到 和 Parquet 同 样 的 性 能 ， 这 
样 束 可 以 省 很 多 麻烦 。 
































1. 建立 olap 库 、 表 、 视 图 





执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 建 表 文件 。 


use 


hive; 
select concat 


('create table ', ti.tbl name, ' (',group concat(concat 


(t2.column name, ' 
',t2.type name) order by 


t2.integer idx),') stored as parquet;') into 


outfile 
'/data/hive/create table.sql' 
from 
(select 
tit Dad, 
t1.tbl_name 
from 


TBLS t1, DBS t2 
where 








by ti.tbl name; 





生成 的 create_table.sql 文 件 包 含 dw 库 中 所 有 维度 表 和 事实 表 的 建 表 
语句 ， 需 要 将 date 数 据 类 型 转换 成 timestamp， 并 将 date 字 有 段 改名 为 
datel. iùn: 

create table 
product_dim (product_sk int 


,product code int 


,product name 
varchar 


(30),product category varchar 


(30), version int 


,effective date timestamp 


, expiry date 
timestamp 


) stored as 


parquet; 





执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 建立 视图 文件 : 





use 


hive; 
select concat 


('create view ', tií.tbl name, ' as ' 
replace(replace 


, 


(ti.view original text,'*n',' '),' date, ',' date1,'), ';') into 


outfile 
'/data/hive/create view.sql' 
from 


TBLS t1, DBS t2 
where 


ti.db id 


- t2.db id 


and 


t2.name - 'dw' 
and 


ti.tbl type = 'VIRTUAL VIEW'; 


生成 的 create_view.sql 文 件 包 含 所 有 建立 视图 的 语句 ， 例 如 : 


create view 


allocate date dim as SELECT 


date sk, date 


, month 


, month name, quarter, year 


promo ind FROM 


date dim; 








从 Hive 命 令 行 执行 建立 库 、 表 、 视 图 的 脚本 。 


hive -e 'create database olap;use olap;source /data/hive/create_ 
/data/hive/create view.sql;' 


2. 问 olap 库 表 初 始 装 载 数据 
执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 装载 数据 脚本 文件 。 


use 


hive; 
select concat 


('insert overwrite table olap.', ti.tbl name, ' select ', 
group concat(t2.column name order by 


t2.integer idx),' from dw.', ti.tbl name ,';') into 


outfile '/data/hive/insert_table.sql' 
from 


(select 


ti.tbl id, 
ti.tbl name 
from 


TBLS t1, DBS t2 
where 


ti.db id 


- t2. db id 


and 


t2.name - 'dw' 
and 


tbl type «» 'VIRTUAL VIEW' 
and 


(tbl name like 


"%dim' or 


tbl name like 


'%fact')) t1, 
(select 


v.column name, 
replace 


(v.type_name, 'date', 'timestamp') type name, 
v.integer_idx, 


t.tbl id 
from 
COLUMNS V2 v, 
CDS Cc, 
SD Sasi 
TBLS t 


where 


v.cd id = c.cd id 
and 


c.cd id = s.cd id 
and 


s.sd id = t.sd id) t2 
where 


ti.tbl id = t2.tbl id 
group by 


ti.tbl name; 


生成 的 insert_table.sql 文 件 包 含 所 有 insert olap 表 的 语句 ， 例 如 : 


insert overwrite table olap.product dim select 
product sk,product code,product name,product category, version,ef 
dw.product dim; 


从 Hive 命 令 行 执 行 初始 装载 数据 的 脚本 。 


hive -e 'source /data/hive/insert table.sql;' 


3. TEBE VT POE Ye a HA AS 


自 先 将 dw 和 olap 库 中 的 事实 表 变 更 为 动态 分 区 表 ， 这 样 在 同 olap 库 
中 装载 数据 时 ， 或 是 在 olap 库 上 进行 查询 时 ， 都 可 以 有 效 地 利用 分 区 消 
除 来 提 融 性 能 。 这 里 只 修改 了 每 日 定时 状 载 所 涉及 的 两 个 表 : 
product_count_fact 和 sales_order_fact， 其 他 事实 表 的 修改 类 似 。 因 为 





Hive 的 分 区 字段 只 能 在 表 定 义 的 最 后 ， 可 能 会 改变 字段 的 顺序 ， 所 以 还 
要 修改 相关 的 ETL 肢 本。 执行 下 面 的 语句 修改 dw 库 的 事实 表 。 


use 





dw; 


set 


hive.exec.dynamic.partition-true 


/ 
set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.exec.max.dynamic 


.partitions.pernode-1000; 


-- product count fact 
create table 


product count fact part 
(product sk int 


) 
partitioned by 


(product launch date sk int 


); 


insert 


overwrite table 


product_count_fact_part partition 


(product_launch_date_sk) 
select 


product_sk, product_launch_date_sk from 


product_count_fact; 


drop table 


product_count_fact; 
alter table 


product_count_fact_part rename to 


product count fact; 


-- sales order fact 
create table 


sales order fact part 
(order number int 

[4 

customer sk int 

[4 

customer zip code sk int 
[4 

shipping zip code sk int 
了 

product sk int 

[4 

sales order attribute sk int 


, 
order date sk int 


, 
allocate date sk int 





) 
partitioned by 


(entry date sk int 


) 
clustered by 
(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


insert 
overwrite table 
sales order fact part partition 


(entry date sk) 
select 


order number, 
customer sk, 
customer zip code sk, 
shipping zip code sk, 








product sk, 
sales order attribute sk, 
order date sk, 
allocate date sk, 
allocate quantity, 
packing date sk, 
packing. quantity, 
ship date sk, 
ship quantity, 
receive date sk, 
receive quantity, 
request delivery date sk, 
order amount, 
order quantity, 
entry date sk 

from 


sales order fact; 


drop table 


sales order fact; 
alter table 


sales order fact part rename to 


sales order fact; 


修改 olap 库 事实 表 的 语句 和 上 面 的 类 似 ， 只 是 表 的 存储 类 型 为 
parquet。 下 面 修改 数据 仓库 每 天 定期 装载 脚本 ， 需 要 做 以 下 三 项 修改 。 


e. 添加 olap 库 中 维度 表 的 履 盖 装载 语句 。 
。 根据 分 区 定义 修改 dw 事实 表 的 装载 语句 。 
。 添加 olap 库 中 事实 表 的 增 量 装载 语句 。 





下 面 显示 了 修改 后 的 regular_etlsql 定 期 装载 脚本 《只 列 出 修改 的 部 


d) 


-- 设置 环境 与 时 间 窗 口 


-- 装载 customer 维 度 ... 
-- 装载 olap,customer_dim 表 
insert overwrite table olap.customer dim select * from customer 


-- 装载 product 维 度 ... 
-- 装载 olap,product_dim 表 
insert overwrite table olap.product dim select * from product di 


-- 装载 新 产品 发 布 无 事实 的 事实 表 product_count_fact 

-- 全 量 装载 olap.product_count_fact 表 

truncate table olap.product count fact; 

insert into olap.product count fact partition (product launch da 
select * from product count fact; 


-- 装载 销售 订单 事实 表 
-- 前 一 天 新 增 的 销售 订单 
-- 因为 分 区 键 字段 在 最 后 ， 所 以 这 里 把 entry_date_sk 字 段 的 位 置 做 了 调整 。 
-- 后 面 处 理 分 配 库房 、 打 包 、 配 送 和 收 货 4 个 状态 时 ， 同 样 也 要 做 相应 的 调整 。 
insert into sales order fact partition (entry date sk) 
select a.order number, 

customer sk, 

i.customer zip code sk, 

j.shipping zip code sk, 

product sk, 

g.sales order attribute sk, 

e.order date sk, 

null, 

null, 

null, 

null, 

null, 

null, 

null, 

null, 

f.request delivery date sk, 

order amount, 

quantity, 

h.entry date sk 

from rds.sales order a, 
customer dim c, 
product dim d, 















































order date dim e, 

request delivery date dim f, 

sales order attribute dim g, 

entry date dim h, 

customer zip code dim i, 

shipping zip code dim j, 

rds.customer k, 

rds.cdc time 1 
where a.order status 
and a.customer number 








Li I 
n 
c.customer_number 


and a.status_date >= c.effective_date 

and a.status_date < c.expiry_date 

and a.customer_number = k.customer_number 

and k.customer_zip_code = i.customer_zip_code 
and a.status_date >= i.effective_date 

and a.status_date <= i.expiry_date 

and k.shipping_zip_code = j.shipping_zip_code 
and a.status_date >= j.effective_date 

and a.status_date <= j.expiry_date 

and a.product_code = d.product_code 

and a.status_date >= d.effective_date 

and a.status_date < d.expiry_date 


and to_date(a.status_date) = e.order_date 

and to_date(a.entry_date) = h.entry_date 

and to_date(a.request_delivery_date) = f.request_delivery_date 
and a.verification_ind = g.verification_ind 

and a.credit_check_flag = g.credit_check_flag 

and a.new_customer_ind = g.new_customer_ind 

and a.web_order_flag = g.web_order_flag 

and a.entry date >= l.last load and a.entry date < l.current loa 


-- 重 载 pa 客户 维度 ... 

-- 装载 olap,pa_customer_dim 表 

insert overwrite table olap.pa customer dim 
select * from pa customer dim; 


-- 处 理 分 配 库房 、 打 包 、 配 送 和 收 货 四 个 状态 


-- 增 量 装载 olap .sales_order_fact 表 
insert into olap.sales order fact partition (entry date sk) 
select t1.* 

from sales order fact ti,entry date dim t2,rds.cdc time t3 
where ti.entry date sk = t2.entry date sk 

and t2.entry date >= t3.last load and t2.entry date < t3.curr 


-- 更 新 时 间 惟 表 的 last_1Load 字 段 ,,， 


Q 
Q 
Q 
Q 




















4. 定义 OLAP 需 求 





要 做 好 OLAP 类 的 应 用 ， 需 要 对 业务 数据 有 深入 的 理解 。 只 有 了 解 
了 业务 ， 才 能 知道 需要 分 析 哪 些 指 标 ， 从 而 有 的 放 和 天 地 剖析 相关 数据 ， 
得 出 可 信 的 结论 来 辅助 决策 。 下 面 束 以 销售 订单 数据 仓库 为 例 ， 提 出 大 
干 问题 ， 然 后 使 用 Impala 查 询 数据 以 回答 这 些 问 题 : 


。 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 ? 

。 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 和 销 
售 额 趋势 是 什么 ? 

。 每 种 产品 类 型 销售 量 和 销售 额 和 同比 如 何 ? 

。 每 个 省 、 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 ? 

迟到 订单 的 比例 是 多 少 ? 

。 客 户 年 消费 金额 为 "高 ”中 低档 的 人 数 及 消费 金额 所 占 比 例 是 
多 少 ? 

每 个 城市 按 销售 金额 排 在 前 三 位 的 商品 是 什么 ? 





5. JAfTOLAPZr if 





使 用 impala-shell 命 令 行 工 具 执 行 olap 库 上 的 查询 ， 回 答 上 一 步 提出 
的 问题 。 进 入 imnpala-shell， 连 接 impalad 所 在 主机 ， 同 步 元 数据 ， 切 换 到 
olap 库 ， 这 些 操作 使 用 的 命令 如 下 所 示 。 


[root@cdh2~ ]#impala-shell 


Starting Impala Shell without Kerberos authentication 
Error connecting: TTransportException, Could not connect to cdh2 


*OkCckckockckockck ck okckock kock ck ck kock ck ck ko KERR ko k ok ck ck kock ck ck ck kock k ko ck kc ck k ko ck k ck ck kk k kk kk kk Ak kkkk*k&t*kÀt*k 


. MUS ... 


*OkCckckckckockck kokckock kock ck ck ko ck ck ck k ck ck ck ck ko ko ck ck kock ck ck ck kock k ck ck kc ck k ko ck ck k ck ko ck ko kk kk kk kk kkk*kÀ&*k&k*k 


[Not connected] > connect cdh1:21000 


Connected to cdh1:21000 

Server version: impalad version 2.5.0-cdh5.7.0 RELEASE (build 
ad3f5adabedf56fe6bd9eea39147c067cc552703) 

[cdh1:21000] » invalidate metadata 


, 
Query: invalidate metadata 


Fetched 0 row(s) in 3.69s 
[cdh1:21000] » use olap 


Query: use olap 


C1) 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 





Impala 目 前 只 文 持 最 基本 的 group by， 尚 不 支持 rollup、cube、 
grouping set 等 操作 ， 所 六 支持 union。 


select * from 
(select t2.product category pro category, 
'' pro name, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1, product dim t2 
where ti.product sk = t2.product sk 
group by pro category 
union all 
select t2.product category pro category, 
t2.product name pro name, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1, product dim t2 
where ti.product sk = t2.product sk 
group by pro category, pro name) t 
order by pro category, pro name; 


Impala 对 结果 集 的 排序 就 只 有 一 种 标准 的 order byr. ris £i SR n 
下 所 示 。 














十 -一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 + 
pro category pro name sum quantity | sum amount 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 
Monitor 342 | 70338.00 
Monitor Flat Panel 304 | 65393.00 
Monitor LCD Panel 38 | 4945.00 
Peripheral 332 | 56396.00 
Peripheral Keyboard 392 | 56396.00 
Storage 890 | 648407.00 
Storage Floppy Drive 427 | 320137.00 
Storage Hard Disk Drive 463 | 328270.00 

4-------------- 4----------------- 4p-------------- 4------------ 十 


Fetched 8 row(s) in 1.18s 


(2) 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 
和 销售 额 趋势 是 什么 





select * from 
(-- 明细 
select t2.product category pro category, 
t2.product name pro name, 
t3.state state, 
t3.city city, 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym 
union all 
-- 按 产 品 分 类 汇总 
select t2.product category pro category, 
'' pro name, 
t3.state state, 
t3.ci3ty city, 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 








from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym 
union all 
-- 按 产 品 分 类 、 省 汇总 
select t2.product category pro_category, 
'' pro name, 
t3.state state, 
US GTty, 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym) t 
order by pro category, pro name, state, city, ym; 


查询 部 分 结果 如 下 所 示 。 


Monitor OH 201607 15 1285.00 





























| 
Monitor OH cleveland 201607 15 1285.00 | 
Monitor PA 201606 38 4945.00 | 
Monitor PA 201607 190 44005.00 | 
Monitor PA 201608 99 20103.00 | 
Monitor PA mechanicsburg 201606 38 4945.00 | 
Monitor PA | mechanicsburg 201607 147 28983.00 | 
Monitor PA mechanicsburg 201608 99 20103.00 | 
Monitor PA pittsburgh 201607 43 15022.00 | 
Monitor Flat Panel OH cleveland 201607 1 1285.00 | 
Monitor Flat Panel PA mechanicsburg 201607 147 28983.00 | 
Monitor Flat Panel PA mechanicsburg 201608 99 20103.00 | 
Monitor Flat Panel PA | pittsburgh 201607 43 15022.00 | 
Monitor LCD Panel PA mechanicsburg 201606 38 4945.00 | 


Fetched 64 row(s) in 1.44s 


(3) 每 种 产品 类 型 销售 量 和 销售 额 和 同比 如 何 


这 个 查询 使 用 了 11.2 节 周期 快照 中 定义 的 
month_end_sales_order_fact 表 。Impala 支 持 视 图 和 ]eft、right、full 外 连 
接 。 


create view 


v product category month as 


select 


t2.product category, 
t3.year 


t3.month 


ti1.month order amount, 
ti.month order quantity 
from 


month end sales order fact t1 
inner join 


product dim t2 on 


ti.product sk = t2.product sk 
inner join 


month dim t3 on 


ti.order month sk = t3.month sk; 


select 


ti.product category, 
ti.year 


t1.month 


(ti.month order quantity - nvl 


(t2.month order quantity,0O)) / 
nvl 


(t2.month_order_quantity,0) pct quantity, 
cast 


((ti.month order amount - nvl 


(t2.month order amount,0)) as double 


j / 
cast 





= t2.month 


查询 结果 如 下 所 示 。 




















+------------------ +------ +------- +-------------- +------------ + 
product_category year month | pct quantity pct amount | 
4------------------ 4------ 4------- R-------------- 4------------ 十 
Storage 2016 3 NULL Infinity | 
Storage 2016 3 | NULL Infinity | 
Storage 2016 4 NULL Infinity | 
Storage 2016 4 NULL Infinity | 
Storage 2016 5 NULL Infinity | 
Storage 2016 5 NULL Infinity | 
Monitor 2016 6 Infinity Infinity | 
Storage 2016 6 Infinity Infinity | 
Storage 2016 6 | NULL Infinity | 
Peripheral 2016 7) Infinity Infinity | 
Monitor 2016 I Infinity Infinity | 
Storage 2016 7 Infinity Infinity | 
Storage 2016 7 Infinity Infinity | 
Peripheral 2016 8 Infinity Infinity | 
Monitor 2016 8 Infinity Infinity | 
4------------------ 4------ 4------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 


Fetched 15 row(s) in 0.79s 


由 于 没有 2015 年 的 数据 ， 分 母 是 0， 除 0 结果 是 Infinity 而 不 报错 。 


(4) 每 个 省 、 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 


select * from 
(select t3.state state, 
t3.city city, 
count(distinct t2.customer sk) sum customer num, 
sum(order amount) sum order amount 
from sales order fact t1 
inner join customer dim t2 
on ti.customer sk = t2.customer sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
group by state, city 
union all 
select t3.state state, 
yn cards 
count(distinct t2.customer sk) sum customer num, 


sum(order amount) sum order amount 

from sales order fact t1 
inner join customer dim t2 

on ti.customer sk = t2.customer sk 
inner join customer zip code dim t3 

on ti.customer zip code sk = t3.zip code sk 
group by state, city) t 
order by state, city; 


’ -E € 
得 询 结 果 如 下 上 所 示 。 
+ 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| state | city | sum customer num | sum order amount | 
4------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 7 
| OH | | 4 | 28372.00 | 
| OH | cleveland | 4 | 23372500 | 
| PA | 120 | 746769.00 | 
| PA | mechanicsburg | 12 | 389318.00 | 
| PA | pittsburgh Ina | 357451.00 | 
4------- 二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
Fetched 5 row(s) in 1.31s 
iJ AJ ay E 
(5) 38 Si VT EB Epl Je BD 

select 


sum total, sum late, round 


(sum late/sum total,4) late pct 
from 


(select sum(case when 


order date sk « entry date sk then 


else 





fri 3 
JINo 





E: 少 
4B 
ji corr 
1 当 的 人 数 
及 
RS 
AN 
上 


n 





(select count 


(a.customer sk) c. count, 
sum 


(annual order amount) sum band, 
c.year year 


band name bn 
from 


annual customer segment fact a, 
annual order segment dim b, 
year dim c, 
annual sales order fact d 
where 


a.segment sk - b.segment sk 
and 


a.year sk - c.year sk 
and 


a.customer sk - d.customer sk 
and 


a.year sk - d.year sk 
and 


b.segment name - 'grid' 
group by year 


Dn), 
(select sum 


(annual order amount) sum total 
from 


annual sales order fact) t2 
order by year 


, bn; 


查询 结果 如 下 所 示 。 


4------ + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 +----------- 4+----------- + 一 一 一 一 一 一 一 一 一 一 + 
| year | bn | c count | sum band | sum total | band pct | 
4------ 4------ $--------- 和 (— 4----- €— 
I220T 69 hg | 740393.00 | 765002.00 | 0.9600 | 
| 2016 tows I 3 | 4815.00 | 765002.00 | 0.0000 | 
| 2016 | med | 4 | 19794.00. | 765002.00 | 0.0200 | 
二 一 一 一 一 一 一 +------ 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 十 


C7) 每 个 城市 按 销售 金额 排 在 前 三 位 的 商品 是 什 


select 


t2.city, t3.product name, ti.sum order amount, 
from 


(select 


么 


ti.rn 


customer zip code sk, 
product sk, 
sum order amount, 
row number() 


over (partition by 


customer zip code sk 
order by 


sum order amount desc 


) rn 
from 


(select 


customer zip code sk, 
product sk, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
group by 


customer zip code sk, product sk) t) t1 
inner join 


customer zip code dim t2 
on 


ti.customer zip code sk = t2.zip code sk 
inner join 


product dim t3 
on 


ti.product sk = t3.product sk 
where 


ti.rn <= 3 
order by 


ti.customer zip code sk, ti.rn; 


查询 结果 如 下 所 示 。 














十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 十 
eity product name sum order amount | rn 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 
| pittsburgh Hard Disk Drive 186869.00 1 

| pittsburgh Floppy Drive 137438.00 

| pittsburgh Keyboard 18122.00 3 

| mechanicsburg Floppy Drive 174486.00 1 

| mechanicsburg Hard Disk Drive 136039.00 2 

| mechanicsburg Flat Panel 49086.00 3 

| cleveland Keyboard 13512.00 1l 

| cleveland Floppy Drive 8213.00 2 

| cleveland Hard Disk Drive 5362.00 3 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 


Fetched 9 row(s) in 1.17s 





以 上 几 个 碍 询 都 在 1 秒 左 右 得 到 结果 。 虽 然 测试 数据 很 少 ， 但 即便 
这 样 的 数据 量 在 Hive 上 执行 相同 的 查询 也 要 几 分 钟 时 间 。Impala 的 优势 
在 于 查询 速度 快 ， 然 而 相对 于 Hive 或 SparkSQL， 当 前 的 Impala 仍 有 诸多 
Nye: 不 文 持 update、delete 操 作 ; 不 文 持 Date 类 型 ， 不 文 持 XML 和 
JSON 相 关 函 数 ， 不 支持 covar_pop、covar_samp、corr、percentile、 
percentile_approx、histogram_numeric、collect_set 等 聚合 函数 ; 不 文 持 
rollup. cube. grouping set 等 操作 ; 不 文 持 数据 抽样 (Sampling) 等 。 看 
来 要 想 日 至 完美 ，Impala 还 有 很 多 工作 要 做 。 





12.5 Apache Kylin 与 OLAP 


Apache ”Kylin 是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 上 的 
SQL 查 询 接 口 及 多 维 分 析 COLAPO 能 力 ， 以 支持 超大 规模 数据 。 它 能 
够 文 持 TB 到 PB 级 别 的 数据 量 ， 并 在 秒 级 从 如 此 巨大 的 Hive 表 中 返回 得 
询 结果 。Kylin 最 初 由 eBay 中 队 开发 并 于 2014 年 10 月 贡献 至 开源 社 
区 ，2014 年 11 月 加 入 Apache 孵 化 器 项 目 ，2015 年 11 月 正式 成 为 Apache 顶 
级 项 目 ， 也 是 首 个 完全 由 中 国 团 队 设 计 开 发 的 Apache 顶 级 项 目 。2016 年 
3H, Apache Kylin 核 心 开发 成 员 创建 了 Kyligence 公 司 ， 力 求 更 好 地 推动 
项 目 和 社区 的 快速 发 展 。 


与 本 书 前 面 介绍 的 所 有 SQL-on-Hadoop 和 解决 方案 不 同 ，Kylin 走 了 一 
条 完全 不 同 的 道路 ， 具 有 典型 的 MOLAP 特 征 。 当 前 流行 的 SQL-on- 
Hadoop 方 案 需 要 扫描 部 分 或 者 全 部 数据 来 完成 查询 ， 致 使 查询 延迟 很 
大 ， 而 Kylin 在 SQL-on-Hadoop 基 础 之 上 ， 通 过 预计 算 立 方 体 方式 ， 以 空 
间 换 时 间 ， 大 幅 降 低 了 查询 延 时 ， 从 而 弥补 了 现 有 方案 的 不 足 之 处 。 


Kylin 骨 在 减少 Hadoop 在 10 亿 及 百 亿 规模 以 上 数据 级 别 情况 下 的 查 
询 延 迟 ， 具 有 以 下 主要 特征 : 





























底层 数据 存储 基于 Hbase， 具 有 较 强 的 可 伸缩 性 。 

为 Hadoop 数 据 提 供 了 ANSI-SQL 接 口 ， 并 且 支 持 大 多 数 的 ANSI- 

SQL PA BX. 

能 够 文 持 在 秒 级 延迟 的 情况 下 对 Hadoop 进 行 交 互 式 查 询 。 

通过 MOLAP Cube 文 持 多 维 联机 分 析 处 理 数据 仓库 。 

用 户 可 以 自 定义 数据 模型 ， 并 有 旦 能够 预 建 超过 10 亿 行 原始 数据 记 
录 的 数据 模型 。 

可 与 其 他 BI 工具 无 颖 集成 ， 如 Tableau、PowerBI 等 ， 并 提供 了 标 
准 的 JDBC、ODBC 接 口 。 

可 分 布 式 部 署 ， 碍 询 服务 器 可 以 水 平 扩展 。 除 上 述 基 本 特征 外 ， 

Kylin 还 计划 在 后 续 版 本 中 文 持 流 式 近 实时 Cube 计 算 ， 并 文 持 实 

时 数据 多 维 分 析 等 各 种 场景 。 











12.5.1 Apache Kylin 架 构 


Apache Kylin 官 方 提供 的 架构 如 网 12-9 所 示 。 它 构建 于 Hive 和 Hbase 


ues 





从 数据 仓库 中 最 常用 的 Hive 中 读 取 源 数 据 ， 使 用 MapReduce 作 为 


Cube 构 建 的 引擎 ， 并 把 预计 算 结果 保存 在 Hbase 中 ， 对 外 暴露 Rest 
APIJDBC/ODBC 的 查询 接口 。Kylin 实 现 查 询 路 由 功能 : 尽量 通过 Hbase 
中 预先 计算 的 OLAP ” ”Cube 满足 查询 ， 不 能 被 Hbase 满 足 的 查询 则 发 送 到 
Hive。Hbase 中 的 OLAP ”Cube 根 据 Hive 星 型 数据 模式 离线 计算 ， 以 空间 
换 时 间 的 方式 加 快 查询 速度 。Kylin 查 询 加 速 对 用 户 透 明 ， 从 用 户 角度 


来 看 ， 





Kylin 的 查询 和 Hive 没 有 太 大 区 别 。 


Thirc Party App SQL-Based Tool 





(Web App, Mobile) (BI tools: Tableau...) Offline Data Flow 
----------------- | | ----------------- Only SQL for End User 
REST API JDBC/ODBC OLAP Cube is transparent to users 
Á 
| SQL SQL 
REST Server 
Query Engine 


|o Mid Latency-Minutes ow Latency-Seconds Ar 一 全 
E da x SENE. 


outinc 4 一 > 
OLAP 
Metadata Subs 


Cube Build Engine 
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Kylin 的 核心 思想 是 预计 算 ， 即 对 多 维 分 析 可 能 用 到 的 度量 进行 预 
先 计 算 ， 将 计算 好 的 结果 保存 成 Cube， 供 查询 时 直接 访问 。 把 高 复杂 度 
的 聚合 运算 、 多 表 连 接 等 操作 转换 成 对 预计 算 结 琳 的 得 询 ， 这 决定 了 
Kylin 能 够 拥有 很 好 的 快速 得 询 和 高 并 发 能 力 。 预 先 计算 OLAP ”Cube 的 
目标 是 事先 按照 各 个 维度 组 合 聚 合 度 量 ， 将 复杂 的 SQL 碍 询 转换 为 简单 
KV 香 询 ， 避 免得 询 时 扫描 过 多 数据 ， 提 升 查询 效率 。 几 12-10 是 Kylin 官 
方 提供 的 一 个 例子 。 











Cuboid = one combination of dimensions 
Cube = all combination of dimensions (all cuboids) 









supplier 
pas M ey 1-D cuboids 
" ; — 人 a 
time, itn — Time, m T =A location, supplier 
C. ry os a a $2) cabold 
~ MN Tim Supplies Mitemy Sipple ~ 2-D cuboids 
J Er n= E uf 


/ —tife. |ucation-suppKer ro 
Sete Ic 3 Ne M 3-D cuboids 
2.5 Fur c P NEC. a m ; 
time, item, location —time, uper "tem, location, supplier 
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N | P ut : í 4-D(base) cuboid 
ty time, item, location, supplier 


Base vs. aggregate cells; ancestor vs. descendant cells; parent vs. child cells 
i 4 Ik ana, Dairy_land) - <time, item, location, supplier> 





) - <item, location> 





Chicago, *) - <item, location> 
milk, *, *) -<item> 


ebay inc 
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Cube Ftime. item, location. supplier ”4 个 维度 ，Kylin 生 成 的 
Cube 包 含 16 个 cubeoid， 每 个 cubeoid 对 应 一 个 维度 组 合 。 每 个 组 合 定义 
了 一 组 分 析 的 维度 ， 如 group by 分 组 条 件 。 度 量 的 聚合 结果 就 保存 在 每 
个 cubeoid 上 ， 碍 询 时 根据 SQL 找到 对 应 的 cubeoid， 读 取 度 量 的 值 ， 即 
可 返回 。 


N 维 Cube 有 2^N 个 cubeoid， 空 间 占 用 非常 可 观 ， 当 NN 超过 一 定量 
时 ， 空 间 消 耗 无 法 接受 。Kylin 通 过 Partial ”Cube 来 降低 维度 组 合 数 ， 平 
衡 存储 空间 和 碍 询 性 能 。 基 本 思路 是 将 维度 拆 分 为 多 个 聚合 组 ， 只 在 组 
内 计算 Cube， 聚 合 组 内 碍 询 效 率 较 高 ， 足 组 得 询 效率 较 差 ， 所 以 应 该 根 
据 业 务 场景 定义 聚合 组 。 此 外 ，Kylin 也 支持 从 Cube 中 裁剪 聚合 效果 较 
差 的 高 基数 属性 ， 降 低 存储 开销 。 

Cube 计 算 非 常 耗 时 ， 新 数据 进入 系统 时 全 量 重 构 Cube 代 价 较 高 ， 
因此 Kylin 设 计 了 增 量 Cube Building 技术 加 速 离线 Cube 的 计算 。 其 原理 
是 保存 基础 Cube， 以 及 多 个 增 量 Cube， 每 个 Cube 代 表 一 段 时 间 内 的 新 
数据 ， 新 数据 构成 新 Cube， 尽 量 避 免 Cube 整 体重 建 。 碍 询 时 访问 多 个 
Cube 进 行 数据 聚合 ，Cube 个 数 越 多 查询 性 能 越 莽 ， 所 以 系统 根据 一 定 
策略 将 小 Cube 合 并 成 为 大 Cube 以 降低 查询 代价 。 














12.5.2 Apache Kylin 安 装 


与 Hive、Impala 或 SparkSQL 不 同 ，Apache Kylin 目 前 并 没有 被 包含 
在 主流 商业 Hadoop 发 行 版 本 中 ， 因 此 需要 单独 安装 。Kylin 的 安装 比较 
厂 烦 ， 根 据 有 具体 环境 ， 可 能 需要 重新 编译 Hadoop 源 侣 。Kylin 还 依赖 于 
Hbase 和 Zookeeper， 并 且 对 这 些 组 件 的 版 本 兼容 性 要 求 非 常 高 ， 任 何不 
匹配 的 版 本 都 可 能 导致 安装 失败 ， 所 以 建议 安装 前 一 定 要 参考 Apache 
Kylin 官 方 文档 ， 确 定 各 组 件 之 间 的 版 本 兼容 情况 。 下 面 用 一 个 实例 说 
明 具 体 的 安装 步 又 。 








1. 安装 环境 


主机 信息 如 表 12-2 所 示 。 








3612-2 ”Kylin 安 装 环境 


IP | 主机 名 | 操作 系统 Hadoop 集群 组 件 角色 


192.168.56.101 Master CentOS release 6.4 HDFS 的 NameNode, SecondaryNameNode; 











YARN 的 ResourceManager; Hbase 的 Hmaster; 


Zookeeper Server 





192.168.56.102 slavel CentOS release 6.4 HDFS 的 DataNode; YARN 的 NodeManager; 


Hbase 的 HregionServer; Zookeeper Server 





192.168.56.103 slave2 CentOS release 6.4 HDFS 的 DataNode; YARN 的 NodeManager; 

















Hbase 的 HregionServer; Zookeeper Server 


软件 版 本 : Hadoop 2.7.2, Hbase 1.1.4, Hive 2.0.0. Zookeeper 
3.4.8. Kylin 1.5.1 C — 4E Zéapache-kylin-1.5.1-HBase1.1.3-bin.tar.gz@,) . 
以 下 安装 步骤 中 ， 没 有 特别 说 明 的 ， 均 在 master 主 机 上 执行 。 


2. 编译 Hadoop 源 码 


安装 前 先 要 重新 编译 Hadoop 源 码 ， 使 得 native 库 支持 snappy， 盏 则 
在 运行 Kylin sample 时 会 出 现 以 下 错误 : 
org.apache.hadoop.hive.ql.metadata.HiveException: native snappy 


library not available: this version of libhadoop was built without snappy 


support. 


造成 错误 的 原因 是 Hadoop 的 二 进 制 安 装 包 中 没有 snappy 文 持 ， 需 要 
重新 编译 源码 。 








(1) 下 载 以 下 所 需要 的 源码 包 


snappy-1.1.1.tar.gz 
protobuf-2.5.0.tar.gz 
hadoop-2.7.2-src.tar.gz 


(2) ERREA, KR PEWS AT S BY BL 


yum install svn 

yum install autoconf automake libtool cmake 
yum install ncurses-devel 

yum install openssl-devel 

yum install gcc* 


(3) 编译 安装 snappy 


# 用 root 用 户 执行 以 下 命令 

tar -zxvf snappy-1.1.1.tar.gz 

cd snappy-1.1.1/ 

./configure 

make 

make install 

# 查看 snappy 库 文件 

ls -lh /usr/local/lib | grep snappy 


(4) 编译 安装 protobuf 


# 用 root 用 户 执行 以 下 命令 

tar -zxvf protobuf-2.5.0.tar.gz 
cd protobuf-2.5.0/ 

./configure 

make 

make install 

# 查看 protobuf 版 本 以 测试 是 否 安装 成 功 
protoc -version 


(5) 编译 hadoop native 


tar -zxvf hadoop-2.7.2-src.tar.gz 
cd hadoop-2.7.2-src/ 
mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib-/ 


执行 成 功 后 ，Hadoop-dist/target/hadoop-2.7.2.tar.gz 即 为 新 生成 的 二 
进 制 安装 包 。 


3. 安装 Hadoop 集 群 


参考 4.2 节 “安装 Apache Hadoop". 
4. 安装 Hbase 


C1) 加 压缩 安装 文件 


tar -zxvf hbase-1.1.4-bin.tar.gz 


(2) 建立 软 连接 


ln -s hbase-1.1.4 hbase 


(3) 修改 hbase-env.sh、hbase-site.xml、regionservers 三 个 配置 文件 


cd hbase/conf 


vi hbase-env.sh 

# 添加 以 下 内 容 

export JAVA HOME-/home/grid/jdk1.7.0 75 
export HBASE HOME-/home/grid/hbase 
export HBASE LOG DIR-/tmp/grid/logs 
export HBASE MANAGES ZK-true 


vi hbase-site.xml 
# 添加 以 下 内 容 
«configuration» 
«property» 
<!-- 设置 Hpase 数 据 库 存放 数据 的 目录 --> 
<name>hbase. rootdir</name> 
<value>hdfs://master :9000/hbase</value> 
</property> 
<property> 
«1-- 打开 Hbase 分 布 模式 --> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 


</property> 
<property> 
<!-- 指定 Hbase 集 群 主 探 节 点 --> 





<name>hbase.master</name> 
<value>master : 60000</value> 
</property> 


«property» 
<!-- 指定 Zookeeper 集 群 节点 名 --> 
<name>hbase. zookeeper . quorum</name> 
<value>master, Slavei, slave2</value> 

</property> 

<property> 

<!-- 指定 Zookeeper 集 群 的 data 目 录 --> 

«name-hbase.zookeeper.property.dataDirc/name» 
<value>/home/grid/hbase/zookeeper</value> 

</property> 

</configuration> 








vi regionservers 

# 把 1ocalhost 改 为 以 下 内 容 
slave1i 

slave2 


(4) 将 修改 后 的 hbase 目 录 复 制 到 其 他 节点 


scp -r hbase slavei:/home/grid/ 
scp -r hbase slavei:/home/grid/ 


5. 安装 Zookeeper 


# 在 master 上 执行 以 下 命令 

cd /home/grid/ 

tar -zxvf zookeeper-3.4.8.tar.gz 
ln -s zookeeper-3.4.8 zookeeper 
cd zookeeper 

mkdir data 

cd conf 


vi zoo.cfg 

# 在 配置 文件 中 添加 如 下 内 容 
tickTime-2000 

initLimit-10 

syncLimit=5 
dataDir=/home/grid/zookeeper/data 
clientPort=2181 

server .1=192.168.56.101:2888:3888 
server .2=192.168.56.102:2888: 3888 
server .3=192.168.56.103: 2888: 3888 


vi /home/grid/zookeeper/data/myid 
# 内 容 就 是 1 


1 


scp -r /home/grid/zookeeper slavei:/home/grid/ 
scp -r /home/grid/zookeeper slave2:/home/grid/ 


# 在 sSLlave1 上 执行 以 下 命令 

vi /home/grid/zookeeper/data/myid 
# 改 为 2 

2 


# 在 slave2 上 执行 以 下 命令 

vi /home/grid/zookeeper/data/myid 
# 改 为 3 

3 


6. 配置 Hbase 的 Zookeeper 


# 在 master 上 执行 以 下 命令 
vi /home/grid/hbase/conf/hbase-site.xml 
# 修改 下 面 的 两 个 属性 
<property> 
<!-- 指定 Zookeeper 和 集群 节点 名 --> 
<name>hbase. zookeeper .quorum</name> 
<value>192.168.56.101,192.168.56.102,192.168.56.103</value> 
</property> 
<property> 
<!-- 指 Zookeeper 集 群 data 目 录 --» 
«name-hbase.zookeeper.property.dataDir«c/name» 
<value>/home/grid/zookeeper/data</value> 
</property> 


# 把 配置 文件 复制 到 另外 两 个 RegionServer 节 点 
scp /home/grid/hbase/conf/hbase-site.xml slave1:/home/grid/hbase 
scp /home/grid/hbase/conf/hbase-site.xml slave2:/home/grid/hbase 


— 








7. 安装 Hive 
参考 5.2 节 中 的 “安装 Hive” 


添加 hive_dependency 环 境 变量 


export 
hive dependency-/home/grid/hive/conf:/home/grid/hive/lib/*:/home 


talog/hive-hcatalog-core-2.0.0.jar 


9. 把 Hive 安 装 目 录 复 制 到 Hadoop 集 群 的 其 他 节点 


scp -r hive slavei:/home/grid/ 
scp -r hive slave2:/home/grid/ 


10. 配置 环境 变量 











根据 实际 情况 ， 在 集群 的 每 个 主机 上 配置 如 下 环境 变量 : 
JAVA HOME. HADOOP HOME. HBASE HOME, 
HADOOP HDFS HOME. HIVE HOME. HADOOP_ 
COMMON HOME. JAVA HOME. HADOOP YARN HOME; 
ZOOKEEPER HOME. KYLIN HOME. HADOOP MAPRED HOME. 


hive dependency. 


11. 安装 配置 Kylin 


# 在 master 上 执行 以 下 命令 

cd /home/grid/ 

tar -zxvf apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz 
ln -s apache-kylin-1.5.1-bin kylin 


vi /home/grid/kylin/bin/kylin.sh 


# 需要 对 此 脚本 做 两 点 修改 : 

# 1. KYLIN_HOME 的 值 改 成 绝对 路 径 

export KYLIN HOME-/home/grid/kylin 

4 2. 在 HBASE_ CLASSPATH_PREFIX 路 径 中 添加 $hive_dependency 

export HBASE_CLASSPATH_PREFIX=${tomcat_root}/bin/bootstrap.jar:$ 
juli.jar:$(tomcat root)/lib/*:$hive dependency:S$HBASE CLASSPATH 


12. 局 动 服务 


# 分 别 在 三 台 机 器 上 启动 Zookeeper 
/home/grid/zookeeper/bin/zkServer.sh start 


# 在 master 启 动 其 他 kylin 依 赖 的 服务 
$HADOOP HOME/sbin/start-dfs.sh 








$HADOOP HOME/sbin/start-yarn.sh 

$HADOOP HOME/sbin/mr-jobhistory-daemon.sh start historyserver 
-—/mysql/bin/mysqld & 

nohup $HIVE HOME/bin/hive --service metastore » /tmp/grid/hive m 
/home/grid/hbase/bin/start-hbase.sh 


# 在 master 启 动 kylin 
cd /home/grid/kylin/bin 
./kylin.sh start 


13. 测试 kylin 自 带 的 例子 
(1) 运行 例子 
${KYLIN_HOME}/bin/sample.sh 


(2) 重启 Kylin 服 务 器 


${KYLIN_HOME}/bin/kylin.sh stop 
${KYLIN_HOME}/bin/kylin.sh start 


(3) 登录 Kylin Web 控 制 台 
使 用 ADMIN/KYLIN 作 为 用 户 名 / 密码 登录 URL: 
http://192.168.56.101:7070/kylin， 在 左上 角 的 project 下 拉 列 表 中 选择 
learn_kylin 项 目 。 


(4) 建立 示例 立方 体 


选中 kylin_sales_cube 示 例 立 方 体 ， 单 击 Actions- Build， 选择 一 个 
截止 日 期 ， 本 试验 中 选择 的 是 2012-04-01。 


(5) 监控 建立 过 程 











在 Monitor 标 签 中 通过 刷新 页 面 检 查 进 度 条 ， 直 到 100%。 立 方 体 创 





建成 功 后 ， 会 在 Hive 中 建立 3 个 表 ，Hbase 中 建立 2 个 表 ， 分 别 如 下 所 
zh 
hive (default)» show tables; 


OK 
kylin cal dt 


kylin category groupings 


kylin sales 


Time taken: 0.698 seconds, Fetched: 3 row(s) 
hive (default)> 


hbase(main):001:0» list 
TABLE 
KYLIN EM92ICSS3MO 


kylin metadata 


2 row(s) in 0.5420 seconds 
-» ["KYLIN EM92ICS3MO", "kylin metadata"] 
hbase(main) :002:0> 


(6) 执行 SQL 查询 


在 Insight 标 签 中 执行 下 面 的 SQL 碍 询 : 


查询 结果 如 网 12-11 所 示 。 








图 12-11 ”Kylin 查 询 


(7) 验证 查询 结果 


在 Hive 中 执行 相同 的 SQL 查 询 ， 验 证 Kylin 的 但 询 结 


12.6 小结 





(1) 联机 分 析 人 处理 系 统 从 数据 仓库 中 的 集成 数据 出 发 ， 构 建 面向 
分 析 的 多 维 数据 模型 ， 再 使 用 多 维 分 析 方 法 从 多 个 不 同 的 视角 对 多 维 数 
据 集合 进行 分 析 比 较 ， 分 析 活 动 以 数据 驱动 。 

(2) 联机 分 析 人 处 理 通常 分 为 MOLAP、ROLAP、HOLAP 三 种 类 
型 。 

(3) Hadoop 上 的 SQL 解 决 方案 主要 有 Hive、SparkSQL、Impala 
等 ， 其 中 Impala 由 于 性 能 优势 ， 比 较 适合 做 联机 分 析 人 处 理 。 


(4) 当前 的 Impala 还 存在 很 多 局 限 ， 在 使 用 时 要 格外 注意 : 不 文 
持 update、delete 操 作 ; 不 支持 Date 类 型 ， 不 支持 XML 和 JSON 相 关 函 
数 ， 不 支持 covar_pop、covar_samp、corr、percentile、 











percentile_approx、histogram_numeric、collect_set 等 聚合 函数 ， 不 支持 


rollup. cube. grouping set 等 操作 ; 不 文 持 数据 抽样 (Sampling) 55. 

(5) Apache ”Kylin 是 一 个 开源 的 分 布 式 分 析 引 苟 ， 提 供 Hadoop 之 
上 的 SQL 查 询 接 口 及 OLAP 多 维 分 析 能 力 ， 以 支持 超大 规模 数据 。 它 最 
初 由 eBay 中 国 团队 开发 ， 并 成 为 首 个 完全 由 中 以 设计 开发 的 Apache 
顶级 项 目 。 


(6) Apache Kylin 的 安装 部 署 要 注意 各 个 组 件 之 间 的 版 本 兼容 性 问 
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起 数据 可 视 化 > 


数据 仓库 的 用 户 大 部 分 是 业务 或 管理 人 员 ， 对 他 们 来 说 ， 图 形 化 的 
表示 往往 比 满 屏 枯 燥 的 数字 更 加 容易 接受 。 有 些 时 候 ， 可 能 希望 得 到 的 
仅 是 条 种 粗略 的 趋势 或 比例 ， 而 不 需要 具体 的 数字 值 ， 此 时 类 似 饼 图 、 
柱状 图 、 折 线 图 等 图 形 能 够 更 加 人 简明 清晰 地 显示 出 业务 含义 ， 因 此 相对 
于 数字 报表 ， 此 时 图 形 是 更 好 的 选择 。 


本 章 中 我 们 首先 说 明 数 据 可 视 化 的 概念 ， 然 后 介绍 Hadoop 生 态 圈 中 
两 种 常用 的 数据 可 视 化 组 件 ，Hue 与 Zeppelin， 并 从 功能 、 架 构 、 使 用 
场景 几 方 面 对 它 们 进行 简单 比较 。 最 后 依然 是 针对 销售 订单 示例 ， 演 示 
如 何 用 Hue 实 现 图 形 化 的 数据 展示 。 














13.1 数据 可 视 化 简介 


数据 可 视 化 在 维基 百科 上 和 是 这 样 定 义 的 : 指 一 种 表示 数据 或 信息 的 
技术 ， 它 将 数据 或 信息 编码 为 包含 在 图 形 里 的 可 见 对 象 ， 如 点 、 线 、 条 
等 ， 目 的 是 将 信息 更 加 清晰 有 效 地 传达 给 用 户 ， 是 数据 分 析 或 数据 科学 
的 关键 技术 之 一 。 简 单 地 说 ， 数 据 可 视 化 融 是 以 图 形 化 方式 表示 数据 。 
决策 者 可 以 通过 图 形 直 观 地 看 到 数据 分 析 结 果 ， 从 而 更 容易 理解 业务 变 
化 趋势 或 及 现 新 的 业务 模式 。 使 用 可 视 化 工具 ， 可 以 在 图 形 或 图 表 上 进 
行 下 钻 ， 以 进一步 获得 更 细 市 的 信息 ， 交 互 式 地 观察 数据 改变 或 处 理 过 


程 。 











1. 数据 可 视 化 的 重要 性 








WKAR EET ET CE, SERI RE RRIEK E RR BR 
比 碍 看 电子 表格 或 报表 更 容易 理解 。 数 据 可 视 化 就 是 这 样 一 种 以 最 为 普 
通 的 方式 ， 癌 人 快速 、 简 单 地 传达 信息 的 技术 。 通 过 数据 可 视 化 能 够 有 
效 地 利用 数据 ， 帮 助人 们 给 诸如 以 下 问题 快速 提供 答案 : 








再 要 注意 的 问题 或 改进 的 方 问 。 
影响 客户 行为 的 因素 。 
确定 商品 放置 的 位 置 。 
销量 预测 。 

通过 增加 数据 可 视 化 的 使 用 ， 能 够 使 企业 更 快 地 发 现 所 要 追求 的 价 
值 。 创 建 更 多 的 信息 图 表 ， 让 人 们 更 快 地 使 用 更 多 的 资源 ， 获 得 更 多 的 
言 轧 。 同 时 使 人 们 意识 到 已 经 知道 很 多 信息 ， 而 这 些 信 息 先 前 就 应 该 是 
很 明显 的 ， 从 而 增加 了 人 们 能 够 提出 更 好 问题 的 可 能 。 它 创建 了 似乎 没 
有 任何 联系 的 数据 点 之 间 的 连接 ， 让 人 们 能 够 分 辨 出 有 用 的 和 没 用 的 数 
据 ， 这 样 ， 就 能 最 大 限度 地 提高 生产 力 ， 让 信息 的 价值 最 大 化 。 


2. 数据 可 视 化 的 用 途 








(1) 快速 理解 信息 


通过 使 用 业务 信息 的 图 形 化 表示 ， 企 业 可 以 以 一 种 清晰 的 、 与 业务 
联系 更 加 紧密 的 方式 但 看 大 量 的 数据 ， 根 据 这 些 信息 制定 决策 。 并 且 由 
于 相对 于 电子 表格 的 数据 分 析 ， 图 形 化 格式 的 数据 分 析 要 更 快 ， 因 此 企 
业 可 以 更 加 及 时 地 发 现 问题 、 解 决 问题 。 











(2) 标识 关系 和 模式 








即使 面 对 大 量 错 综 复 森 的 数据 ， 图 形 化 表示 也 能 使 数据 变 得 可 以 理 
解 。 企 业 能 够 识别 高 度 关 联 、 互 相 影响 的 多 个 因素 。 这 些 关 系 有 些 是 显 





而 易 见 的 ， 有 些 则 不 易 发 现 。 识 别 这 些 关 系 可 以 帮助 组 织 聚 焦 于 最 有 可 
能 影响 其 重要 目标 的 领域 。 


(3) 确定 新 兴 趋 势 





使 用 数据 可 视 化 ， 可 以 辅助 企业 发 现 业 务 或 市 场 趋势 ， 准 确定 位 超 
越 竞 争 对 手 的 自身 优势 ， 最 终 影响 其 经 营 效益 。 企 业 更 容易 发 现 影响 产 
品 销量 和 客户 购买 行为 的 异常 数据 ， 并 把 小 问题 消灭 于 彰 牙 之 中 。 





(4) 方便 沟通 交流 





一 旦 从 可 视 化 分 析 中 对 业务 有 了 更 新 、 更 深入 的 了 解 ， 下 一 步 就 需 
要 在 组 织 间 沟通 这 些 情况 。 使 用 图 表 、 图 形 或 其 他 有 效 的 数据 可 视 化 表 
示 在 沟通 中 是 非 第 重要 的 ， 因 为 这 种 表示 更 能 吸引 人 的 注意 ， 并 能 快速 
获得 彼此 的 信息 。 


3. 实施 数据 可 视 化 需要 考虑 的 问题 
实施 一 个 新 技术 ， 需 要 采取 一 些 有 效 步骤 。 除 了 扎实 地 掌握 数据 


外 ， 还 需要 理解 目标 、 需 求 和 受众 。 在 组 织 准备 实施 数据 可 视 化 技术 
时 ， 先 要 做 好 以 下 功 诬 : 











。 明确 试图 可 视 化 的 数据 ， 包 括 数据 量 和 基数 一列 数据 中 不 同 值 


的 个 数 ) 。 
e 确定 需要 可 视 化 和 传达 的 信息 种 类 ， 如 事务 明细 、 系 积聚 合 、 比 
值 比例 等 。 


。 了 解数 据 的 受众 ， 并 领会 他 们 如 何 处 理 可 视 化 信息 。 
。 使 用 一 种 对 受众 来 说 最 优 、 最 简 的 可 视 化 方案 传达 信息 。 


在 明确 了 数据 属性 和 作为 信息 消费 者 的 受众 的 相关 问题 后 ， 束 需要 


准备 与 大 量 数 据 打 交道 了 。 大 数据 给 可 视 化 市 来 新 的 挑战 ， 

4V (Volume, Velocity, Variety, Veracity) 是 必须 要 考虑 的 问题 ， 而 
且 数 据 产生 的 速度 经 常会 比 其 被 管理 和 分 析 的 速度 快 。 需 要 可 视 化 的 列 
的 基数 也 是 应 该 重点 考虑 的 因素 ， 高 基数 意味 着 该 列 有 大 量 不 同 值 〈 如 
身份 证 写 ) ， 而 低 基 数 则 说 明 该 列 有 大 量 重复 值 《 如 性 别 ) 。 


4. 几 种 主要 的 数据 可 视 化 工具 








e Tableau Desktop (主流 桌面 BI)〉。 

e Business Object 《SAP 收购 的 BI 公司 产品 〉。 
e Hyperion 《Oracle 收 购 的 BI 公司 产品 )。 

e Cognos (IBM 收 购 的 BI 公司 产品 〉。 

e Pentaho Report( 最 流行 的 开源 BI)。 


13.2 ”Hue 人 简介 
前 面 讨论 了 数据 可 视 化 的 基本 概念 ， 那 么 在 Hadoop 生 态 圈 中 ， 有 哪 


些 图 形 化 的 工具 适合 做 数据 可 视 化 呢 ?” 本 布 与 下 市 分 别 介 绍 两 种 常用 的 
Hadoop 组 件 ，Hue 与 Zeppelin。 





Hue 是 Hadoop User Experience 的 缩写 ， 是 一 个 开源 的 Apache Hadoop 
UI 系统 ， 最 早 是 由 Cloudera Desktop 演 化 而 来 的 ， 由 Cloudera 贡 献 给 开源 
社区 。 它 是 基于 Python Web 框 架 Django 实 现 的 。 


示例 环境 使 用 的 CDH ”5.7.0 自 带 的 Hue 服 务 是 3.9.0 版 本 。 通 过 使 用 
CDH 的 Hue Web 应 用 ， 可 以 与 Hadoop 集 群 进行 交互 。 在 Hue 中 可 以 浏览 
HDFS 和 作业 ， 管 理 Hive 元 数据 ， 运 行 Hive、Impala 查 询 或 Pig 脚 本 ， 浏 
览 HBase， 使 用 Sqoop 导 出 数据 ， 提 交 MapReduce 程 序 ， 使 用 Solr 建 立定 
制 的 搜索 引擎 ， 调 度 重复 执行 的 Oozie 工 作 流 等 。 


Hue 应 用 运行 在 Web 浏 览 器 中 ， 不 需要 安装 客户 端 。 其 体系 结构 如 


图 13-1 所 示 。 
| a 
| 


图 13-1 Hue 架构 





Hue Server 是 Web 应 用 的 容器 ， 位 于 CDH 和 浏览 占 之 间 ， 是 所 有 Hue 
Web 应 用 的 宿主 ， 负 贡 与 CDH 组 件 通信 。Hue Database FIRTH H H 
的 元 数据 ， 默 认 安 闭 时 使 用 的 是 一 个 散 入 式 数 据 库 ， 也 可 以 配置 成 使 用 
外 部 关系 数据 库 系统 。 





13.2.1 Hue 功 能 快速 预览 


可 以 从 CDH Manager 中 的 相关 链接 登录 Hue。 在 CDH Manager 主 页 
面 中 单 击 集群 中 的 “Hue” 服 务 ， 进 入 Hue 服 务 页 面 后 单 击 “Hue Web 
Uf” 链接 ， 这 时 会 打开 Hue 登 录 页 面 ， 要 求 输入 用 户 名 / 密码 ， 如 图 13-2 
所 示 。 首 次 登录 输入 的 任意 字符 串 ， 会 自动 作为 管理 员 的 用 户 名 和 密 
人 码 ， 之 后 可 以 在 Hue 中 执行 用 户 管理 任务 ， 如 添加 、 删 除 用 户 、 修 改 密 


码 等 。 


Welcome to Hue 
Sign in to continue to your dashboard 


登录 


图 13-2” ”Hue 登录 





登录 后 Hue 会 进行 配置 检查 、 安 装 示 例 、 创 建 或 导入 用 户 等 问 导 步 
又 ， 然 后 进入 Hue 主 页 ， 如 图 13-3 所 示 。 
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图 13-3 ”Hue 主 页 


图 中 最 上 面 是 导航 条 ，11 个 图 标 都 有 超 链接 。Hue 图 标 是 “关于 
Hue” 链 接 ， 单 击 进入 刚 登 录 后 的 向 导 步 又 页 面 。 第 二 个 是 主页 图 标 ， 单 
击 进入 “我 的 文档 ”页 面 。 后 面 依次 为 “查询 数据 ”管理 数据 ”使 用 Oozie 
的 计划 ”管理 HDFS* 管 理 作业 “管理 ”文档 “演示 教程 > 和 “注销 ” 子 菜 
单 或 超 链接 。“ 查 询 数据 ”* 子 菜单 包括 Hive、Impala、DB 查 询 、Pig 和 作 











业 设 计 嚣 。“ 管 理 数据 ” 子 菜 单 包括 Metastore 表 和 Sqoop 传 输 。“ 使 用 
Oozie 的 计划 ”包括 WorkFlow、Coordinator、Bundles 三 种 Oozie 工 作 流 的 
仪表 板 和 编辑 器 。“ 管 理 ” 包 括 编辑 配置 文件 和 管理 用 户 子 菜单 。 


这 些 是 Hue 主 要 的 功能 ， 每 个 主 功能 下 面 的 详细 页 面 这 里 就 不 展示 
了 ， 都 是 页 面 操 作 ， 单 击 便 可 以 轻松 使 用 。 在 这 些 功 能 特性 集合 
中 ,，“ 人 查询 数据 ”与 数据 可 视 化 关系 最 为 密切 ， 也 是 最 党 使 用 的 功能 。 后 
面 实例 部 分 ， 将 会 看 到 与 查询 相关 的 图 形 化 表示 ， 还 会 演示 其 他 一 些 
Hue 的 常用 功能 。 











13.2.2 ”配置 元 数据 存储 


像 Hadoop 的 其 他 组 件 一 样 ，Hue 也 有 很 多 配置 选项 ， 每 个 选项 的 具 
体 含义 和 配置 说 明 可 以 从 CDH ”Manager 的 Hue 配 置 页 或 相关 文档 中 找 
到 。 在 此 需要 说 明 一 下 的 是 Hue 自 身 的 元 数据 存储 配置 。 


Hue 服 务 器 需要 一 个 SQL 数据 库存 储 诸如 用 户 账号 信息 、 提 交 的 作 
业 、Hive 查 询 等 少量 数据 。CDH 5.7.0 默 认 安装 时 ，Hue 的 元 数据 存储 在 
一 个 仍 入 式 数据 库 SQLite 中 ， 但 这 种 配置 并 不 适用 于 生产 环境 。Hue 也 
支持 MariaDB、MySQL、PostgreSQL、Oracle 等 几 种 外 部 数据 库 。 
Cloudera 强 烈 推 荐 在 Hue 多 用 户 环 境 ， 特 别 是 生产 环境 中 使 用 外 部 数据 
库 。 从 这 个 链接 地 址 可 以 查看 CDH 5 所 支持 数据 库 的 完整 列表 : 











http://www.cloudera.com/documentation/enterprise/latest/topics/cdh ig_ 
s.html#topic_2 


下 面 说 明 使 用 CDH Manager 配 置 Hue 服 务 器 在 MySQL 中 存储 元 数据 
的 详细 步骤 。 注 意 : Cloudera 推 荐 使 用 InnoDB 作 为 Hue 的 MySQL 存 储 引 
擎 ，CDH 5 的 Hue 需 要 InnoDB。 


1. 配置 前 需求 


(1) 安装 所 用 操作 系统 需要 的 所 有 类 库 ， 例 如 CentOS/RHEL 需 要 
以 下 类 库 。 


Oracle's JDK 

ant 

asciidoc 

cyrus-sasl-devel 
cyrus-sasl-gssapi 
cyrus-sasl-plain 

gcc 

gcc-c-*- 

krb5-devel 

libffi-devel 

libtidy (for unit tests only) 
libxml2-devel 

libxslt-devel 

make 

mvn (from apache-maven package or maven3 tarball) 
mysql 

mysgl-devel 

openldap-devel 

python-devel 

sqlite-devel 

openssl-devel (for version 7+) 


(2) 确认 Hue Serveria 17 fF Python 2.6 或 以 上 版 本 上 。 
(3) 安装 了 MySQL 数 据 库 (MySQL 数据 库 的 安装 配置 详 见 


http://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_mysq. 


2. 配置 操作 

步骤 01 在 Cloudera ”Manager 管理 控制 台中 ， 从 服务 列表 中 单 
击 “Hue” 进 入 Hue 服 务 页 面 。 

SOQ, 选择 “操作 ”-, “停止 "*， 集 止 Hue 服 务 。 


BROS, 选择 “操作 ”-“ 转 储 数据 库 ”， 将 元 数据 库 转 储 为 一 个 json 文 
frr. 


步骤 04 注意 在 “ 转 储 数据 库 * 命 令 执行 窗口 中 ， 确 认 转 储 文件 所 在 
的 主机 ， 如 图 13-4 所 示 。 
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图 13-4 “ 转 储 数据 库 ? 执 行 
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步骤 05 / 在 该 主机 上 打开 一 个 终端 窗口 ， 编 
辑 /tmp/hue_database_dump.json 文 件 ， 去 掉 文 件 中 
useradmin.userprofile 段 中 的 所 有 JSON 对 象 ， 例 如 删除 下 面 这 上 段 : 


{ 

"ok": 14, 

"model": "useradmin.userprofile", 

"fields": 

{ "creation_method": "EXTERNAL", "user": 14, "home_directory": " 


ty 


步骤 06 在 /etc/my.cnf 文 件 中 设置 MySQL 严 格 模 式 ， 并 重启 
MySQL. 

[mysqld] 

sql mode-STRICT ALL TABLES 

步骤 07 4 ”在 MySQL 中 建立 一 个 新 的 数据 库 并 授予 Hue 用 户 对 该 库 的 
管理 员 权限 ， 例 如 : 


mysql> create database hue; 

Query OK, 1 row affected (0.01 sec) 

mysql> grant all on hue.* to 'hue'Q'localhost' identified by 'se 
Query OK, © rows affected (0.00 sec) 


步骤 08 / 在 Cloudera Manager 管 理 控制 台 ， 单 击 进入 “Hue” 服 务 的 “ 配 
置 ”标签 。 

步骤 09 4 “类别” 选择 “数据 库 ”。 

步骤 104 指定 Hue 数 据 库 的 类 型 、 主 机 名 、 端 口 、 用 户 名 、 密 码 和 
数据 库 名 。 在 示例 环境 中 如 图 13-5 所 示 。 
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图 13-5 ”配置 Hue 元 数据 库 








E3114 在 新 数据 库 还 原 Hue 的 元 数据 。 
OD 在 “Hue” 服 务 页 面 中 ， 选 择 “操作 ”-,“ 同 步 数据 库 ”。 
@ 在 第 8 步 建立 的 hue 数 据 库 中 确认 外 键 ， 如 下 所 示 。 


$ mysql -uhue -psecretpassword 

mysql > show create table auth permission'g 
mysql > show create table desktop document\g 
mysql > show create table django admin log*g 


删除 上 一 步 查 出 的 外 键 。 


mysql > alter table auth permission drop foreign key content typ 
mysql » alter table desktop document drop foreign key content ty 
mysql » alter table django admin log drop foreign key content ty 


由 删除 django_content_type 表 里 的 数据 。 


delete from hue.django content type; 
commit; 


加 在 “Hue” 服 务 页 ， 单 击 “ 操 作 ”- “加 载 数据 库 ”。 
ORME G) 步 删除 的 外 键 。 


mysql > alter table auth permission add foreign key (content typ 
django content type (id); 
mysql » alter table desktop document add foreign key (content ty 
django content type (id); 
mysql » alter table django admin log add foreign key (content ty 
django content type (id); 


步骤 12 在 Cloudera Manager 管 理 控制 台中 ， 局 动 Hue 服 务 。 


如 果 在 上 述 步 又 中 报 类 似 "libmysqlclient.so.16: cannot open shared 
object file: No such file or directory” 这 种 错误 ， 说 明 MySQL 的 类 库 和 Hue 
所 需 的 不 羔 容 ， 这 时 只 需 下 载 羔 容 版 本 的 库 文件 ， 并 放置 到 /usr/lib64 目 
录 ， 再 操作 就 不 会 报错 了 。 





13.3 ”Zeppelin 简介 


一 节 简 单 介 绍 了 Hue 这 种 Hadoop 生 态 圈 的 数据 可 视 化 组 件 ， 本 节 
"m poss Zeppelin。 首 先 介 绍 一 下 Zeppelin 架 构 ， 然 后 
说 明 其 安装 的 详细 步骤 ， 之 后 演示 如 何在 Zeppelin 中 添加 MySQL 翻 译 
[T 





13.3.1 Zeppelin 架构 


Zeppelin 是 一 个 基于 Web 的 软件 ， 用 于 交互 式 地 数据 分 析 。 它 一 开 
台 是 Apache 软 件 基金 会 的 孵化 项 目 ，2016 年 5 月 正式 成 为 项 级 项 B à 


Zeppelin 描 述 自己 是 一 个 可 以 进行 数据 摄取 、 数 据 发 现 、 数 据 分 析 、 数 
据 可 视 化 的 笔记 本 ， 用 以 帮助 开发 者 、 数 据 科学 家 以 及 相关 用 户 更 有 效 
地 处 理 数据 ， 而 不 必 使 用 复杂 的 命令 行 ， 也 不 必 关 心 集群 的 实现 细节 。 
Zeppelin 的 架构 如 图 13-6 所 示 。 


Zeppelin Architecture 





| HTTP Rest / Websocket 


| Thrift 
terpreterGroup 


r Interpretar 





图 13-6 Zeppelin fJ 


从 上 图 中 可 以 看 到 ，Zeppelin 具 有 客户 问 / 服务 器 架构 ， 客 户 端 一 
般 就 是 指 浏览 器 。 服 务 器 接收 客户 病 的 请 求 ， 并 将 请 求 通 过 Thrift 协 议 
发 送 给 翻译 器 组 。 翻 译 器 组 物理 表现 为 JVM 进 程 ， 负 责 实 际 处 理 客户 妆 
的 请 求 并 与 服务 器 进行 通信 。 

翻译 器 是 一 个 插件 式 的 体系 结构 ， 人 允许 任何 语言 或 后 端 数据 处 理 程 
序 以 插件 的 形式 添加 到 Zeppelin 中 。 特 别 需 要 指出 的 是 ，Zeppelin 内 建 
Spark 翻 译 占 ， 因 此 不 需要 构建 单独 的 模块 、 插 件 或 库 。 翻 译 占 的 架构 
如 图 13-7 所 示 。 








Zeppelin Interpreter Architecture 
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图 13-7” Zeppelin 翻译 器 架构 















single SparkDriver 








当前 的 Zeppelin 已 经 文 持 很 多 翻译 器 ， 如 Zeppelin ”0.6.0 版 本 自 带 的 
翻译 器 有 alluxio、cassandra、file、hbase、ignite、kylin、md、phoenix、 
sh. tajo. angular. elasticsearch, flink, hive. jdbc. lens. psql. spark 
18 种 之 多 。 插 件 式 架构 允许 用 户 在 Zeppelin 中 使 用 自己 熟悉 的 特定 程序 
语言 或 数据 处 理 方式 。 例 如 ， 通 过 使 用 %spark 翻 译 妖 ， 可 以 在 Zeppelin 
中 使 用 Scala 语 言 代码 。 


在 数据 可 视 化 方面 ，Zeppelin 已 经 包含 一 些 基本 的 图 表 ， 如 柱状 
图 、 人 饼 图 、 线 形 图 、 散 点 图 等 ， 任 何 支 持 的 后 端 语言 输出 都 可 以 被 图 形 
化 表示 。 

在 Zeppelin 中 ， 用 户 建立 的 每 一 个 查询 叫做 一 个 note，note 的 URL 在 
多 用 户 间 共享 ，Zeppelin 将 回 所 有 用 户 实时 广播 note 的 变化 。Zeppelin 还 
提供 一 个 只 显示 查询 结果 的 URL， 该 页 不 包括 任何 菜单 和 按钮 。 用 这 种 
方式 可 以 方便 地 将 结果 页 作为 一 帧 嵌入 到 自己 的 Web 站 点 中 。 











13.3.2 Zeppelin 安装 配置 


下 面 用 一 个 典型 的 使 用 场景 ， 在 一 个 实验 环境 上 说 明 Zeppelin 的 安 


装配 置 步骤 。 我 们 将 使 用 Zeppelin 运 行 SparkSQL 查 询 Hive 表 的 数据 。 
1. 安装 环境 


12 个 节点 的 Spark 集 群 ， 以 standalone 方 式 部 署 ， 各 节点 运行 的 进程 
如 表 13-1 所 示 。 集 群 中 所 有 主机 均 可 连接 互联 网 。 





表 13-1 Zeppelin 部 署 环 境 








主机 名 运行 进程 
nbidc-agent-03 NameNode、Spark Master 
nbidc-agent-04 SecondaryNameNode 


ResourceManager, DataNode, NodeManager, Spark Worker 
DataNode. NodeManager. Spark Worker 
DataNode, NodeManager, Spark Worker 
DataNode, NodeManager. Spark Worker 
DataNode, NodeManager, Spark Worker 
DataNode, NodeManager. Spark Worker 
DataNode, NodeManager, Spark Worker 


nbidc-agent-20 DataNode. NodeManager. Spark Worker 











nbidc-agent-21 DataNode, NodeManager, Spark Worker 


nbidc-agent-22 DataNode. NodeManager. Spark Worker 


操作 系统 : CentOS release 6.4. 





Hadoop 版 本 : 2.7.0. 
Hive 版 本 : 2.0.0。 
Spark 版 本 : 1.6.0. 





2. 在 nbidc-agent-04 上 安装 部 署 Zeppelin 及 其 相关 组 件 


(1) 安装 Git 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


yum install curl-devel expat-devel gettext-devel openssl-devel z 
yum install gcc perl-ExtUtils-MakeMaker 

yum remove git 

cd /home/work/tools/ 

wget https://github.com/git/git/archive/v2.8.1.tar.gz 

tar -zxvf git-2.8.1.tar.gz 

cd git-2.8.1.tar.gz 

make prefix-/home/work/tools/git all 

make prefix-/home/work/tools/git install 


(2) 安装 Java 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Java 安 装 目录 到 nbidc-agent- 
04 上 。 


scp -r jdk1.7.0 75 nbidc-agent-04:/home/work/tools/ 


(3) #238 Apache Maven 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 

wget ftp://mirror.reverse.net/pub/apache/maven/maven-3/3.3.9/bin 
bin.tar.gz 

tar -zxvf apache-maven-3.3.9-bin.tar.gz 


(4) 安装 Hadoop 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Hadoop 安 装 目录 到 nbidc- 
agent-04 上 。 


scp -r hadoop nbidc-agent-04:/home/work/tools/ 
(5) 安装 Spark 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Spark 安 装 目 录 到 nbidc- 
agent-04 E- 


scp -r spark nbidc-agent-04:/home/work/tools/ 


(6) 安装 Hive 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Hive 安 装 目录 到 nbidc-agent- 
04 上 。 





scp -r hive nbidc-agent-04:/home/work/tools/ 
(7) 安装 phantomjs 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 
tar -jxvf phantomjs-2.1.1-linux-x86 64.tar.bz2 


(8) 下载 最 新 的 zeppelin 源 码 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 
git clone https://github.com/apache/incubator-zeppelin.git 


(9) 设置 环境 变量 
在 nbidc-agent-04 上 编辑 /home/work/.bashrc 文 件 ， 内 容 如 下 。 


vi /home/work/.bashrc 

# 添加 下 面 的 内 容 

export 

PATH=. : $PATH : /home/work/tools/jdk1.7.0_75/bin: /home/work/tools/h 
ark/bin: /home/work/tools/hive/bin: /home/work/tools/phantomjs-2.1 
x86 64/bin:/home/work/tools/incubator-zeppelin/bin; 

export JAVA HOME-/home/work/tools/jdk1.7.0 75 

export HADOOP HOME-/home/work/tools/hadoop 

export SPARK HOME-/home/work/tools/spark 

export HIVE HOME-/home/work/tools/hive 

export ZEPPELIN HOME-/home/work/tools/incubator-zeppelin 

# 保存 文件 ， 并 使 设置 生效 


source /home/work/.bashrc 


(10) 编译 zeppelin 源 码 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/incubator-zeppelin 
mvn clean package -Pspark-1.6 -Dspark.version-1.6.0 -Dhadoop.ver 
Pyarn -DskipTests 


3. 配置 zeppelin 


(1) 配置 zeppelin-env.sh 文 件 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cp /home/work/tools/incubator-zeppelin/conf/zeppelin-env.sh.temp 
/home/work/tools/incubator-zeppelin/conf/zeppelin-env.sh 

vi /home/work/tools/incubator-zeppelin/conf/zeppelin-env.sh 

# 添加 下 面 的 内 容 

export JAVA HOME-/home/work/tools/jdk1.7.0 75 

export HADOOP CONF DIR-/home/work/tools/hadoop/etc/hadoop 

export MASTER-spark://nbidc-agent-03:7077 


(2) 配置 zeppelin-site.xml 文 件 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cp /home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml.te 
/home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 
vi /home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 
# 修改 下 面 这 段 的 value 值 ， 设 置 zeppelin 的 端口 为 9090 
<property> 
<name>zeppelin.server.port</name> 
<value>9090</value> 
<description>Server port.</description> 
</property> 


(3) 将 hive-site.xml 复 制 到 Zeppelin 的 配置 目录 下 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/incubator-zeppelin 
cp /home/work/tools/hive/conf/hive-site.xml . 


4. 局 动 zeppelin 


在 nbidc-agent-04 上 执行 下 面 的 指令 。 
zeppelin-daemon.sh start 
5. 测试 
从 浏览 器 打开 http://nbidc-agent-04:9090/， 如 图 13-8 所 示 。 
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图 13-8 Zeppelin 3: Jt rfi 


单 击 Interpreter 沫 单 ， 配 置 并 保存 spark 翻 译 器 。 各 属性 值 如 表 13-2 
所 示 。 


表 13-2 ”spark 翻译 器 属性 


属性 名 称 人 


Spark.cores.max 


zeppelin.spark.printREPLOutput true 





master spark://nbidc-agent-03:7077 


zeppelin.spark.maxResult 1000 
zeppelin dep localrepo Leap 00 


spark.app.name Zeppelin 


zeppelin.spark.sql.stacktrace false 

| zeppelininterpreterlocalRepo | /ome/worktools/incubator-zeppelinocal-repo/2BW11U8FD_ | 
| zeppelinsparkuseHliveContent | we 0| 
a 


args 





zeppelin.spark.concurrentSQL false 





zeppelin.pyspark.python python 








zeppelin.dep.additionalRemoteRepository spark-packages,http://dl.bintray.com/spark-packages/maven, false; 


配置 并 保存 hive 翻 译 器 ， 各 属性 值 如 表 13-3 所 未 。 


图 13-3 hive 翻译 器 属性 
属性 名 称 值 
jaefaultpassword | 
|_defaultuser | hive 


default.driver org.apache.hive.jdbc.HiveDriver 


default.url jdbc:hive2://nbidc-agent-03:10001 
common.max count 1000 








单 击 “NoteBook”-, “Create new note” 子 菜单 项 ， 建 立 一 个 新 的 查询 
并 执行 。 


%sql 
select * from wxy.t1 where rate > ${r} 


这 是 一 个 动态 表单 SQL， 查 询 hive 表 wxy.t1 的 数据 。 第 一 行 指定 翻 
译 器 为 SparkSQL， 第 二 行 用 ${r} 指 定 一 个 运行 时 参数 ， 执 行 时 页 面 上 会 
出 现 一 个 文本 编辑 框 ， 输 入 参数 后 按 回 车 键 ， 查 询 会 按照 指定 参数 进 
行 ， 筛 选 出 rate > 100 的 记录 ， 查 询 结 果 如 图 13-9 所 示 。 











图 13-9 Zeppelin 查询 
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库 也 能 使 用 Zeppelin 但 询 ， 并 将 结果 图 形 化 显示 ， 那 么 就 可 以 用 一 套 统 
一 的 数据 可 视 化 方案 处 理 大 多 数 帝 用 得 询 。Zeppelin 本 身 还 不 带 MySQL 
翻译 器 ， 笠 运 的 是 已 丝 有 MYSQL 翻译 器 插件 了 了。 下 面 说 明 该 插件 的 安 
装 步骤 及 简单 测试 。 








1. 编译 MySQL Interpreter 源 代码 


cd /home/work/tools/ 
git clone https://github.com/jiekechoo/zeppelin-interpreter-mysq 
mvn clean package 


2. 部 署 二 进 制 包 


mkdir /home/work/tools/incubator-zeppelin/interpreter/mysql 

cp /home/work/tools/zeppelin-interpreter-mysql/target/zeppelin-m 
/home/work/tools/incubator-zeppelin/interpreter/mysql/ 

# copy dependencies to mysql directory 

cp commons-exec-1.1.jar mysql-connector-java-5.1.6.jar slf4j-log 
1.2.17.jar slf4j-api-1.7.10.jar /home/work/tools/incubator -zeppe 
vi /home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 

4 7Ezeppelin.interpreters 的 value 里 增加 “org.apache.zeppelin.mysql. 





3. Œ JA Zeppelin 


zeppelin-daemon.sh restart 
4. 加 载 MySQL Interpreter 


打开 主页 http:/nbidc-agent-04:9090/， 单 击 
Interpreter 2 Create, “Name” “mysql”, “Interpreter” 选 择 “mysql”， 增 


加 属性 名 和 值 如 表 13-4 所 示 。 完 成 这 些 配 置 工作 后 ， 单 击 “Save” 按 钮 保 
f. 








N 





13-4 _ mysql 翻译 器 属性 





属性 名 称 值 








172.16.1.102 
3306 


--user root 





--password mypassword 





5. 测试 


(1) 创建 名 为 mysql_test 的 note。 
(2) 输入 下 面 的 查询 语句 ， 按 创建 日 期 统计 建立 表 的 个 数 。 


%mysql 
select date_format(create_time, '%Y-%m-%d') d, count(*) c 
from information_schema. tables 


group by date format(create time, '%Y-%m-%d' ) 
order by d; 





(3) 执行 查询 。 


查询 结果 的 表格 、 柱 状 图 、 人 饼 图 、 堆 车 图 、 线 形 图 分 别 如 图 13-10 
至 图 13-14 所 示 。 
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图 13-10 “表格 
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图 13-11 柱状 图 
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图 13-12 HA 


A Zeppel in NutcLuuk * htcimeten Guifyurativy 
mysgltest > x ws oale 


SEANN m YOu sor 
wavs 


select date_formst (cevate tier, SY Se Md") d, covnt(* 


from informa: Sco, schema tablet 


Lanmoro 
€ 

aro by date, Format create, tine, NP V Xd) 

order by 


"m ww €9 ^ 


E 


settisgs ~ 


Gowo (orem 了 cparoeq 


2016-96-06 





图 13-13 HES 
P Zeppelin Notebook + 


interpreter Configuration 


Sech in your notebooks Q Connected 








图 13-14 ”线形 图 


报表 样式 的 饼 图 如 图 13-15 所 示 。 可 以 单 击 如 图 13-16 所 示 的 链接 单 
独 引 用 此 报表 。 


@ Zeppelin Notebook + Interpreter Configuration 
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图 13-16 ”链接 报表 


单独 的 页 面 能 根据 查询 的 修改 而 实时 变化 ， 比 如 将 查询 修改 为 : 


select date_format(create_time, '%Y-%m-%d') d, count(*) c 
from information schema.tables 
where create time » '2016-06-07' 





group by date format(create time, '%Y-%m-%d' ) 
order by d; 





增加 了 where 子 句 ， 再 运行 此 查询 ， 结 果 如 图 13-17 所 示 。 


ə Zeppel in Notebook - Interpreter Configuration 





图 13-17 图 形 显 示 随 查询 变化 


单独 链接 的 页 面 也 随 之 自动 及 生变 化 ， 如 图 13-18 所 示 。 


2016-96-97 9260-27 02016-08-12. 920160920. 82016-0320 








图 13-18 单独 链接 的 页 面 自动 变化 











13.4 Hue、Zeppelin 比 较 


1. 功能 


e Zeppelin 和 Hue 都 具有 一 定 的 数据 可 视 化 功能 ， 都 提供 了 多 种 图 
形 化 数据 表示 形式 。 单 从 这 点 来 说 ， 它 们 的 功能 类 似 ， 大 同 小 
异 。Hue 可 以 通过 经 纬度 进行 地 图 定位 ， 这 个 功能 在 Zeppelin 
0.6.0 上 没有 。 

e Zeppelin 文 持 的 后 端 数据 和 查询 程 序 较 多 ，0.6.0 版 本 默认 有 18 种 ， 





原生 文 持 Spark。 而 Hue 的 3.9.0 版 本 默认 只 文 持 Hive、Impala、Pig 
和 数据 库 得 询 。 

Zeppelin 只 提供 了 单一 的 数据 处 理 功能 ， 它 将 数据 摄取 、 数 据 发 
现 、 数 据 分 析 、 数 据 可 视 化 都 归 为 数据 处 理 的 范畴 。 而 Hue 的 功 
能 则 丰富 得 多 ， 除 了 类 似 的 数据 处 理 ， 还 有 元 数据 管理 、Oozie 
工作 流 管 理 、 作 业 管 理 、 用 户 管理 、Sqoop 集 成 等 很 多 管理 功 
能 。 从 这 点 看 ，Zeppelin 只 是 一 个 数据 处 理工 具 ， 而 Hue 更 像 是 
一 个 综合 管理 工具 。 


2. AR 
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Hue 与 Hadoop 生 态 圈 的 其 他 组 件 密切 相关 ， 一 般 都 与 CDH 一 同 部 
署 。 


3. 使 用 场景 


e Zeppelin 适合 单一 数据 处 理 ， 但 后 端 处 理 语 言 索 多 的 场景 ， 尤 其 
适合 Spark。 

e Hue 适 合 与 Hadoop 集 群 的 多 个 组 件 交 互 ， 如 Oozie 工 作 流 、Sqoop 
等 联合 处 理 数 据 的 场景 ， 尤 其 适合 与 Impala 协 同 工 作 。 


13.5 ”数据 可 视 化 实例 
本 节 先 用 Impala、DB 碍 询 示 例 说 明 Hue 的 数据 查询 和 可 视 化 功能 ， 


然后 交互 式 地 建立 定期 执行 销售 订单 示例 ETL 任 务 的 工作 流 ， 说 明 在 
Hue 里 是 如 何 操作 Oozie 工 作 流 引擎 的 。 


1. Impala ifj 





在 12.4 节 中 执行 了 一 些 联机 分 析 处 理 的 查询 ， 现 在 在 Hue 里 执行 得 
询 ， 直 观看 一 下 结果 的 图 形 化 表示 效果 。 
3:01 XEzkHue, fup e 图 标 进入 “我 的 文档 ”页面 。 
#024 单 击 | 创建 一 个 名 为 “销售 订单 ”的 新 项 目 。 
3:023 4 单 击 “新 文档 ”-,“Impala” 进 入 查询 编辑 页 面 ， 创 建 一 个 新 的 
Impala 文 档 。 
步骤 044 在 Impala 碍 询 编辑 页 面 ， 选 择 olap 库 ， 然 后 在 编辑 窗口 输入 
下 面 的 查询 语句 。 


-- 按 产 品 分 类 查询 销售 量 和 销售 额 
select 











t2.product category pro. category, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1, product dim t2 
where 


ti.product sk = t2.product sk 
group by 


pro. category 
order by 


pro category; 


-- 按 产品 查询 销售 量 和 销售 额 
select 























t2.product name pro name, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1, product dim t2 
where 


ti.product sk = t2.product sk 
group by 


pro name 
order by 


pro name; 


单 击 “ 执 行 ?按钮 ， 结 末 显 示 按 产品 分 类 的 销售 统计 ， 如 图 13-19 所 





示 。 接 着 单 击 “ 下 一 页 ”按钮 ， 结 果 会 显示 按 产品 的 销售 统计 。 





图 13-19 ”Impala 查 询 页 面 





步骤 05 / 单 击 “ 全 屏 查看 结果 ”按钮 ， 会 全 屏 显 示 查 询 结 果 。 
下 品 统计 结果 如 图 13-20 所 示 。 





图 13-20 ”产品 统计 结果 表格 


产品 统计 柱状 图 如 图 13-21 所 示 。 
从 图 中 可 以 看 到 ， 按 销售 额 从 大 到 小 排序 的 产品 依次 为 Hard Disk 
Drive. Floppy Drive. Flat Panel、Keyboard 和 LCD Panel. 
步骤 06 / 回 到 查询 编辑 页 ， 单 击 “ 男 存 为 .…” 按 钮 ， 保 存 名 为 “ 按 产品 
统计 ”的 得 询 。 











图 13-21 产品 统计 结果 柱状 图 


59807 / 单 击 “新 查询 ”按钮 ， 按 同样 的 方法 再 建立 一 个 “ 按 地 区 统 
计 ” 的 查询 。SQL 语 句 如 下 。 


-- 按 省 查询 销售 量 和 销售 额 


select 





t3.state state 


count 


(distinct 


t2.customer sk) sum customer num, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
inner join 


customer dim t2 on 


ti.customer sk = t2.customer sk 
inner join 


customer zip code dim t3 
on 


ti.customer zip code sk = t3.zip code sk 
group by state 


order by state 


1 
了 


-- 按 城市 查询 销售 量 和 销售 额 
select 




















t3.city city, 
count 


(distinct 


t2.customer sk) sum customer num, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
inner join 


customer dim t2 on 


ti.customer sk = t2.customer sk 
inner join 


customer zip code dim t3 
on 


ti.customer zip code sk = t3.zip code sk 
group by 


city 
order by 


city; 


城市 统计 饼 图 如 图 13-22 所 示 。 





图 13-22 ”城市 统计 人 饼 图 








从 图 中 可 以 看 到 ，mechanicsburg 市 的 销售 占 整 个 销售 额 的 一 半 。 
步骤 084 再 建立 一 个 “ 按 年 月 统计 ”的 查询 ， 这 次 使 用 动态 表单 功 
能 ， 运 行 时 输入 年 份 。SQL 语 句 如 下 。 


-- 按 年 月 查询 销售 量 和 销售 额 
select 





t4.year 


*100 + t4.month 


ym, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1 
inner join 


order date dim t4 on 


ti.order date sk = t4.date sk 
where 


(t4.year 


*100 + t4.month 


) between 
$ym1 and 
$ym2 
group by 
ym 

order by 
ym; 


注意 $ym1 和 $ym2 是 动态 参数 ， 执 行 此 查询 ， 会 出 现 输入 框 要 求 输 
入 参数 ， 如 图 13-23 所 示 。 





图 13-23 ”动态 参数 输入 


查询 2016 一 年 的 销售 情况 ，ym1 输 入 201601，ym2 输 入 201612， 然 
后 单 击 “ 执 行 租 询 ”， 结 有 果 线 形 图 如 图 13-24 所 示 。 
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图 13-24 年 月 统计 线形 图 


此 结果 按 碍 询 语句 中 的 order by 子 句 排序 。 





至 此 ， 我 们 定义 了 三 个 Impala 查 询 ， 进 入 “我 的 文档 ”页 面 可 以 看 
到 “default" 项 目 中 有 三 个 文档 ， 而 “销售 订单 ?项 目 中 没有 文档 。 


步骤 094 把 这 三 个 文档 移动 到 “销售 订单 ”项目 中 。 


单 击 右面 列表 中 的 “default* 按 钮 ， 会 弹出 “移动 到 某 个 项 目 * 页 面 ， 
单 击 “销售 订单 ”， 如 图 13-25 所 示 。 





移动 到 某 个 项 目 


选择 您 希望 将 该 六 档 移 至 其 中 的 项 目 


9 稍 售 1] 单 -— 
® default - È a 


单 击 





图 13-25 ”移动 项 目 


将 三 个 查询 文档 都 如 此 操作 后 ， 在 “销售 订单 ?项 目 中 会 出 现 此 三 个 
文档 ， 如 图 13-26 所 示 。 








图 13-26 ”将 文档 迁移 到 “销售 订单 ”项 目 中 





以 上 用 销售 订单 的 例子 演示 了 一 下 Hue 中 的 Impala 人 查询 及 其 图 形 化 
表示 。 严 格 地 说 ， 无 论 是 Hue 还 是 Zeppelin， 在 数据 可 视 化 上 与 传统 的 
BI 产品 相 比 还 很 初级 ， 它 们 只 是 提供 了 几 种 常见 的 图 表 ， 还 缺少 基本 的 
上 养 、 下 钻 、 切 块 、 切 片 、 百 分 比 等 功能 ， 如 果 只 想 用 Hadoop 生 态 圈 里 
的 数据 可 视 化 工具 ， 也 只 能 期 竺 其 逐步 完善 吧 。 


步骤 10 4 最 后 提供 一 个 Hue 文 档 中 通过 经 纬度 进行 地 图 定位 的 示 
例 ， 如 图 13-27 所 示 。 
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图 13-27 通过 经 纬度 进行 地 图 定位 








2. DB 查询 


默认 时 Hue 没 有 启用 DB 但 询 ， 如 果 蛙 击 Query Editors “DBA iH”, 
会 出 现 提 示 “ 当 前 没有 已 配置 的 数据 库 。” 的 页 面 。 可 以 按 如 下 方法 配置 
DB 查询 。 


步骤 01 4 进入 CDH  Managerl'Hue- 配置” 页面， 在“ 类别” 中 选 
FEMA I” “高 级 ”， 然 后 编辑 “hue_safety_valve.ini 的 Hue 服 务 高 
级 配置 代码 段 (安全 阀 ) ”配置 项 ， 填 写 类 似 如 下 内 容 : 


[librdbms] 
[[databases]] 
[L{mysql]]] 

# Name to show in the UI. 
nice_name="MySQL DB" 
name=hive 
engine=mysql 
host=172.16.1.102 
port=3306 
user=root 
password=mypassword 


这 里 配置 的 是 一 个 MySQL 数 据 库 。 








步 又 024 。 单 击 “ 保 存 更 改 " 按 钮 ， 然 后 单 击 “ 操 作 ”- “重启 ”， 重 启 Hue 
服务 。 
此 时 再 次 在 Hue 里 单 击 “Query Editors" “DB 查询 ”， 则 会 出 现 
MySQL 中 hive 库 表 ， 此 库存 放 的 是 Hive 元 数据 。 此 时 就 可 以 输入 SQL 进 
行人 查询 了 ， 如 图 13-28 所 示 。 


Ee 5e e nes 


TBL ID CREATE TIME UB 1D LAST ACCESS t 
x 145832723 r 





[13-28 ”DB 查询 
3. 建立 定期 执行 销售 订单 示例 的 ETL 工 作 流 


下 面 说 明 使 用 Hue 建 立 工 作 流 的 详细 步骤 。 
+01 / 登录 Hue 的 Web 主 页 ， 单 击 Workflows “编辑 
器 ”Workflow， 打 开 “Workflow 编 辑 器 ”页 面 。 


5302/ 。 单 击 Create 按 钮 ， 新 建 一 个 工作 流 。 工 作 流 预定 义 了 16 种 
操作 ， 而 且 Start、End、K 记 节点 已 经 存在 ， 不 需要 、 也 不 能 自己 定 
2s 

步骤 034 e 图标， 打开 工作 区 页 面 。 

X044 单 击 。 图 标 ， 显 示 HDFS 上 的 工作 区 目录 。 


步骤 054 执行 下 面 的 命令 ， 将 相关 依赖 文件 复制 至 工作 区 目录 。 


hdfs dfs -put -f /root/mysql-connector-java-5.1.38/mysql-connect 
/user/hue/oozie/workspaces/hue-oozie-1472779112.59 

hdfs dfs -put -f /etc/hive/conf.cloudera.hive/hive-site.xml /use 
o0zie-1472779112.59 

hdfs dfs -put -f /root/regular etl.sql /user/hue/oozie/workspace 
hdfs dfs -put -f /root/month sum.sql /user/hue/oozie/workspaces/ 


步骤 06 回 到 “Workflow 编 辑 嚣 ”页面 ， 拖 上 忠 添 加 三 个 “Sqoop 1” 操 
作 。 因 为 三 个 Sqoop 并 行 处 理 ， 所 以 工作 流 中 会 自动 添加 fork 市 点 
和 join 节 点 。 


151207 编辑 第 一 个 “Sqoop 1” £24 F 


oo 1 操作 改名 为 “sqoop-customer”。 
真 写 如 下 命令 ， 用 import 全 量 装 载 客户 表 。 


import --connect jdbc:mysql://cdh1:3306/source?useSSL-fe 
mypassword --table customer --hive-import --hive-table r 


单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 * 工 作 区 ”， 选 择 hive-site.xml 
Xt. 

。 再 次 单 击 “文件 ”， 在 “选择 文件 ?页面 单 击 * 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 


步骤 084 ”编辑 第 二 个 “Sqoop 1 操作 。 


e 将 “Sqoop 1” 操 作 改 名 为 “sqoop-product”。 
e 填写 如 下 命令 ， 用 import 全 量 装 载 产 品 表 。 


import --connect jdbc:mysql://cdh1:3306/source?useSSL-fe 
mypassword --table product --hive-import --hive-table rc 


e 单 击 “ 文 件 ”， 在 “选择 文件 "页面 单 击 “ 工 作 区 ”， 选 择 hive-site.xml 


arts 
e 再 次 单 击 “ 文 件 ”， 在 “选择 文件 ”页面 单 击 * 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 


25:09 4 编辑 第 三 个 “Sqoop 1 操作 。 


。 将 “Sqoop 1” 操 作 改 名 为 “sqoop-sales_order”。 
。 填 写 如 下 命令 ， 用 job 增 量 装 载 销 售 订 单 表 。 


job --exec myjob incremental import --meta-connect jdbc: 


e 单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 * 工 作 区 ”， 选 择 hive-site.xml 
Xt. 
。 再 次 单 击 “文件 ”， 在 “选择 文件 ?页面 单 击 * 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 
步骤 10 4 修改 工作 流 的 名 称 为 “regular_etl*"， 添 加 工作 流 的 描述 为 “ 销 
售 订 单 定 期 ETL”，fork 节 点 的 名 称 为 “fork-node”，join 节 点 的 名 称 
为 “join-node”。 
步骤 114 ”在 “join-node” 广 点 下 ， 拖 忠 添 加 一 个 “Hive 脚 本 ”操作 ,“ 肢 
本 ”选择 工作 区 目录 下 的 regular_etl.sql 文 件 ，“Hive XML” 选 择 工 作 
区 目录 下 的 hive-site.xml 文 件 。 修 改 操作 名 称 为 “hive-every-day”， 此 
操作 每 天 执行 ETL 主 流程 。 
步骤 12 fE"hive-every-day" PEE F, fü 89287] — T ^ Hivell A” f 
YE, “脚本 ?选择 工作 区 目录 下 的 month_sum.sql 文 件 , "Hive 
XML? 选 择 工 作 区 目录 下 的 hive-site.xml 文 件 ， 修 改 操作 名 称 
为 "hive-every-month”。 此 操作 每 个 月 执行 一 次 ， 生 成 上 月 汇总 数据 
快照 。 


步骤 13 4 这 步 要 使 用 一 个 小 技巧 。hive-every-month 是 每 个 月 执行 一 





次 ， 我 们 是 用 天 做 判断 ， 比 如 每 月 1 日 执行 此 操作 ， 需 要 一 个 
decision 1i £i 75 X date eq 1 的 判断 。 在 Hue 的 工作 流 编 辑 里 ，decision 
节点 是 由 fork 节 点 转换 来 的 ， 而 fork 节 点 是 伴 到 并 发 操作 时 自动 添 
加 的 。 因 此 需要 添加 一 个 和 “hive-every-month” 操 作 并 发 的 操作 来 自 
动 添加 fork 节 点 ， 这 里 选择 “停止 ?操作 。 

步骤 14 4 单 击 “转换 为 决策 *， 条 件 是 如 果 ${date eq 1} 转 至 “hive-every- 
month”， 奋 则 转 至 “End”。 因 为 不 是 1 号 时 会 转 至 默认 的 “End” 市 
点 ， 所 以 此 时 已 经 不 再 需要 刚才 添加 的 “停止 ?操作 ， 将 其 删除 。 
至 此 我 们 的 regular_etl 工 作 流 已 经 定义 完成 ， 单 击 = 图 标 保存 。 


步骤 154 "Pih e “设置 >， 在 弹出 的 “Workflow 设 置 ” 页 面 里 单 击 “添加 
参数 ”链接 ， 参 数 名 为 “date”， 值 设置 为 1。 


步骤 16 ”关闭 “Workflow 设 置 ?页 面 ， 单 击 > “提交 ”， 弹 出 “提交 
regular_etl?” 页 面 ， 参 数 date 值 为 1。 


步骤 174 单 击 “ 提 区 ?” 近 钮 ， 工 作 流 执行 。 


前 面 的 步骤 定义 了 Workflow 工 作 流 ， 要 让 它 定 时 执行 还 要 定义 
Coordinator 工 作 流 。 











步骤 184 单 击 ^Workflows”- “编辑 器 ”~ “Workflow”， 打 开 *Coordinator 
编辑 器 ”页 面 。 

步骤 1 94 FÉ. “Create” 42 4l , 新 建 一 个 工作 流 o 

步骤 20 4 单 击 “ 选 择 Workflow” 链 接 ， 在 弹出 的 页 面 中 选 
择 “regular_etl”。 

步骤 214 “频率 ”配置 不 变 ， 保 持 默认 的 每 天 一 次 。 

步骤 22 4 单 击 “ 添 加 参数 ”链接 ， 将 
$(coord:formatTime(coord:actualTime(), 'd")} 作 为 regular_etl 里 变量 


date 的 值 ， 传 递 给 Workflow。 


步骤 234 修改 Coordinator 工 作 流 的 名 称 为 “regular_etl-coord”， 单 击 © 
保存 。 至 此 我 们 的 Coordinator 工 作 流 已 经 定义 完成 。 


步骤 24 4 单 击 “提交 ”按钮 ，Coordinator 工 作 流 执行 。 
13.6 小结 


(1) Zeppelin 和 Hue 是 Hadoop 中 两 种 常用 的 数据 可 视 化 组 件 。 


(2) Zeppelin 文 持 的 后 端 数据 查询 程序 较 多 ， 原 生 文 持 Spark。 而 
Hue 默 认 只 支持 Hive、Impala、Pig 数 据 查询 。 


(3) Zeppelin 只 提供 了 单一 的 数据 处 理 功 能 ， 而 Hue 除 了 类 似 的 数 
据 处 理 ， 还 有 元 数据 管理 、Oozie 工 作 流 管理 、 作 业 管 理 、 用 户 管理 、 
Sqoop 集 成 等 很 多 管理 功能 。 


(4) Zeppelin 采用 插件 式 的 翻译 器 ， 通 过 插件 ， 可 以 添加 任何 后 端 
语言 及 其 数据 处 理 程 序 。 


(5) 通过 配置 ，Hue 可 以 文 持 关系 数据 库 碍 询 。 
(6) 在 Hue 中 可 以 交互 式 定 义 Oozie 工 作 流 。 





